男性和女性大脑差别，比你想象的更大

作者 | Srikanth Ryali、Yuan Zhang、Carlo de los Angeles等人

翻译 |maxkk26

首发 | 《美国国家科学院院刊》

原文 | 《Deep learning models reveal replicable, generalizable, and behaviorally relevant sex differences in human functional brain organization》

译者按：在女权者追求性别平等，力求消除歧视的时候不应忽视男性和女性在生理特征存在巨大差异。如果违背自然，盲目追求没有差距，这就是瞎搞意义

性别是影响人类行为的重要生物学因素，它影响着大脑功能以及精神和神经疾病的表现。然而，先前关于男性和女性大脑组织差异的研究尚未得出明确结论。

利用最近在人工智能和大型多队列功能磁共振成像数据集方面的进展，我们识别出人类功能性大脑组织中高度可重复、可泛化且与行为相关的性别差异，这些差异定位于默认模式网络、纹状体和边缘网络。我们的发现推进了对大脑功能和行为中与性别相关差异的理解。

更广泛地说，我们的方法为探究精神和神经疾病中与性别差异相关的强健、可泛化且可解释的神经生物学指标提供了基于人工智能的工具。

摘要

性别在人类大脑发育、衰老以及精神和神经疾病的表现中起着至关重要的作用。然而，我们对人类功能性大脑组织中性别差异及其行为后果的理解，一直因研究结果不一致和缺乏可重复性而受到阻碍。在此，我们通过使用时空深度神经网络模型来揭示区分男性和女性大脑的潜在功能性大脑动态，以应对这些挑战。我们的时空深度神经网络模型能够准确区分男性和女性大脑，展现出持续的高交叉验证准确率（>90%）

并且在来自同一批个体的多次扫描数据以及三个独立队列（约1500名年龄在20至35岁的年轻人）中表现出高度的可重复性和泛化能力。可解释人工智能分析显示，与默认模式网络、纹状体和边缘网络相关的大脑特征在多次扫描和独立队列中始终表现出显著的性别差异（效应量 > 1.5）。

此外，可解释人工智能导出的大脑特征能够准确预测性别特异性认知特征，这一发现也得到了独立重复验证。我们的结果表明，功能性大脑动态中的性别差异不仅具有高度可重复性和泛化性，而且与行为相关，这对认为男性-女性大脑组织是一个连续体的观点提出了挑战。我们的发现强调了性别作为人类大脑组织中一个生物学决定因素的关键作用，为开发精神和神经疾病中个性化的性别特异性生物标志物提供了重要启示，并为未来的研究提供了创新的、基于人工智能的计算工具。

性别在早期大脑发育、青春期和衰老过程中都扮演着重要角色 (1)，并且，无论是正常还是病理性大脑功能的诸多方面，均表现出性别差异 (1–5)。这些差异在大多数精神和神经疾病的病因学中尤为明显 (6–9)。研究一致表明，女性比男性更容易患抑郁症、焦虑症和进食障碍 (10)。而自闭症、注意缺陷多动障碍和精神分裂症等疾病在男性中比女性更普遍，并呈现出性别特异性的临床表现和病程 (11–13)。因此，了解人脑中的性别差异，对于理解正常行为和精神病理学都至关重要。

目前我们对人脑性别差异的认识，主要源于对其解剖学和结构的研究（近期综述见参考文献 14）。尸检及活体结构性脑成像研究均证实，男性大脑的总脑容量大于女性 (15–18)。此外，研究发现男性大脑中的白质体积百分比高于女性 (19)。相反，女性大脑中的灰质百分比则高于男性 (19)。在脑区层面，研究经常报告杏仁核、海马体和脑岛体积存在性别差异 (20)。同样，结构连接也被证明因性别而异。利用弥散张量成像，Inghalikar 等人发现男性大脑的半球内结构连接高于女性，而女性大脑的半球间结构连接则高于男性 (21)。分类分析表明，多变量脑结构模式或许能够准确区分性别 (22–24)。

尽管有越来越多的证据表明人脑结构组织存在性别差异，但这些结构差异是否会转化为功能性大脑组织的差异，以及如何转化，尚不清楚。静息态功能磁共振成像数据的日益普及，促使人们更多地使用连接性分析来探索大脑功能中的性别差异。这些研究发现，局部和长距离功能连接均存在性别差异。特别是，女性比男性表现出更高的局部功能连接密度 (25) 以及更强的默认模式网络功能连接 (26–29)。另一方面，有报告称男性感觉运动皮层的功能连接强度高于女性 (29)。也有研究报告了大脑功能连接偏侧化的性别差异，男性的短距离连接更倾向于右侧化，而女性的长距离连接则更倾向于左侧化 (30)。分类分析报告称，大脑功能连接模式能够以 62% 至 87% 的准确率区分性别 (26, 27, 29–38)。然而，由于先前研究的年龄范围跨度大（从儿童期到成年期）以及纳入了精神病理学个体，其结果并不一致 (26, 27, 29–38)（总结见 SI 附录，图 S1 和表 S1）。关键在于，这些发现的可重复性和泛化能力仍不清楚，因为很少有研究使用稳健的预测模型来评估同一受试者多次扫描中性别差异的可重复性和稳定性，或其在独立队列中的泛化能力。一项使用预测模型在未见数据中区分性别的研究报告的分类准确率约为 60% (37)，这引发了人们对人类功能性大脑组织中性别差异的可重复性和泛化能力的担忧。此外，构成性别差异基础的具体大脑区域和网络尚不明确。对驱动性别差异的大脑区域和网络进行更严格的定量刻画，对于理解正常的功能性大脑组织以及阐明精神和神经疾病的性别特异性易感性至关重要 (1)。

为了解决文献中的关键空白，并识别功能性大脑组织中可重复、可泛化且与行为相关的性别差异，我们开发了一个端到端的时空深度神经网络模型和一个基于可解释人工智能的计算框架（图 1）。我们的时空深度神经网络模型是在来自人类连接组项目的大样本（约 1000 人）静息态功能磁共振成像数据上进行训练的 (39)。随后，我们在多个 HCP 扫描 session 上评估了我们预测模型的可重复性，而无需额外训练。此外，我们还评估了该时空深度神经网络模型对两个独立的年龄匹配队列（来自 Nathan Kline Institute–Rockland Sample 和马克斯·普朗克研究所莱比锡分队）的泛化能力，同样无需额外训练。我们的研究聚焦于 20 至 35 岁的年轻人，因此排除了关注发育（例如 ABCD 研究）和衰老（例如 UK BioBank 研究）的队列（SI 附录，表 S1）。

图1关键步骤包括：数据提取（步骤1）、分类（步骤2和3）、特征识别——即跨脑区预测性别的特征权重（“指纹”）（步骤4和5），以及认知特征预测（步骤6）。XAI = 可解释人工智能。

我们有四个主要目标。第一个目标是确定人类大脑的功能组织中是否存在可靠的性别差异。深度神经网络的最新进展已经革新了机器学习领域，并且人们越来越有兴趣将其应用于从功能磁共振成像数据中对正常状态以及神经精神疾病状态进行分类 (42–46)。功能磁共振成像研究中的深度神经网络模型主要侧重于使用预先计算好的脑区间功能连接进行分类 (33)。然而，近年来的研究表明，功能磁共振成像时间序列是高度非平稳的，受试者内部以及组间的动态大脑连接存在显著差异 (47–49)。我们的时空深度神经网络模型解决了预先计算连接特征的局限性，能够在不做平稳性假设和无需特征工程的情况下，捕捉潜在的回路动态。这也代表了相对于现有功能磁共振成像研究中深度神经网络模型的显著优势 (50, 51)。时空深度神经网络直接以功能磁共振成像时间序列作为输入，并使用多个一维卷积对跨脑区的时间序列片段进行处理，以揭示区分男性和女性的潜在回路动态。关于我们方法技术创新的更多细节，请参见材料与方法部分。

我们的第二个目标是通过研究人类大脑功能组织中性别差异的可重复性和泛化能力，来应对性别差异研究中的可重复性危机 (52, 53)。我们首先检验了在 HCP 一个 session 数据上训练的时空深度神经网络模型，在使用同一批受试者在其他三个 HCP session 中获取的数据 (54, 55) 来区分女性和男性大脑时的性能。接下来，我们探究了在 HCP 数据上训练的时空深度神经网络模型，在来自 NKI-RS 和 MPI-Leipzig 队列的独立数据中区分女性和男性大脑的能力。这种方法使我们能够探究模型对在不同扫描仪和数据采集协议下获取的新（未训练）数据的泛化能力，从而探讨人脑性别差异的可重复性和泛化性。我们假设，在一个 HCP session 数据上训练的时空深度神经网络模型，能够在其他三个 HCP session 中揭示性别差异，并能泛化到来自完全不同队列的、前所未见的数。

我们的第三个目标是识别构成性别差异基础的、稳定的、神经生物学上可解释的特征。以往在脑成像中使用深度神经网络的研究几乎完全侧重于分类准确率，而对构成分类基础的神经生物学特征关注不足。我们通过使用基于可解释人工智能的技术来解决与基于深度神经网络架构相关的“黑箱”问题，这使得我们能够识别区分女性和男性功能性大脑组织的大脑特征或“指纹”(56–58)。我们使用了积分梯度算法，该算法估算了从给定（或随机）基线到输入的路径上，梯度相对于输入的积分，从而为每个特征对最终预测的贡献程度提供一个重要性评分 (59–62)。这种可解释人工智能算法还提供了区分女性和男性的大脑特征（权重）排序。随后，我们使用一致性分析来识别在交叉验证模型中一致的大脑特征。我们预测，基于可解释人工智能的方法和一致性分析将使我们能够捕捉到功能性大脑组织中性别差异背后可解释且可重复的神经生物学特征。除了区分性别的大脑区域特征的稳定性外，我们还考察了大规模皮层和皮层下网络差异的一致性。

我们的最终目标是将功能性大脑组织中的性别差异与女性和男性的行为联系起来。在过去的二十年里，人们对多个认知功能领域的性别差异进行了广泛的研究 (63)。然而，关于性别特异性认知特征与功能性大脑组织之间关系，我们知之甚少。为了解决这个问题，我们利用深度表型分析的 NIH Toolbox (64) 行为数据，并使用通过时空深度神经网络导出的个体水平大脑特征作为认知特征的预测因子，评估了女性和男性中脑-行为关系的性别特异性。我们假设，在个体水平上，那些存在性别差异的功能性大脑特征能够预测认知特征，并且脑-行为关系在男女之间会有所不同。

我们采用时空深度神经网络和可解释人工智能技术的方法，识别出了跨多个数据集和独立队列的人类功能性大脑组织中可重复、可泛化且可解释的性别差异，并且进一步揭示了存在性别差异的功能性大脑特征与行为相关。最后，我们证明了我们的方法相对于传统机器学习方法的优势。

结果HCP 队列内的性别差异分类

我们使用时空深度神经网络（SI 附录，图 S2）直接利用功能磁共振成像时间序列来区分女性和男性，无需显式的特征工程。我们首先在每一个 HCP session 上分别训练时空深度神经网络模型，并在各自对应的 HCP session 内测试模型的性能（SI 附录，表 S2）。为了评估模型性能，我们采用了五折交叉验证流程，其中 80% 的样本用于训练，其余 20% 的样本用于测试（SI 附录，图 S3A）。我们的时空深度神经网络模型在五折交叉验证中实现了高的平均准确率（平均值：90.21% 至 91.17%；标准差：1.21% 至 2.85%），以及高的平均宏精度（平均值：0.91 至 0.92；标准差：0.01 至 0.03）、宏召回率（平均值：0.90 至 0.92；标准差：0.01 至 0.03）、宏 F1 分数（平均值：0.90 至 0.91；标准差：0.01 至 0.03）和 AUC（平均值：0.97 至 0.98；标准差：0 至 0.01）（图 2 和 SI 附录，图 S4）。这些结果证明了跨 session 和跨交叉验证折的可靠性别差异。

图2

▲Fig2：在每一个 HCP session 数据上进行的五折交叉验证分类性能，以及模型在无需任何额外训练的情况下，于其他三个 HCP session 中的可重复性。对于五个性能指标（准确率、宏精度、宏召回率、宏 F1 分数和 AUC）中的每一个，我们都在一个矩阵中展示了成对的平均性能结果。矩阵中的行指 HCP 训练集 session（即 stDNN 模型是在哪个 session 上训练的），列指 HCP 测试集 session（即 stDNN 模型在哪个 session 上进行测试）。

随后，我们通过将在某一个 HCP session 上训练的 stDNN 模型应用于其他三个 HCP session（无需任何额外训练），评估了性别差异的可重复性。stDNN 模型在五折交叉验证中实现了高的平均准确率（平均值：86.61% 至 94.72%；标准差：0.35% 至 2.85%），以及高的平均宏精度（平均值：0.87 至 0.95；标准差：0 至 0.03）、宏召回率（平均值：0.87 至 0.95；标准差：0.01 至 0.03）、宏 F1 分数（平均值：0.87 至 0.95；标准差：0 至 0.03）和 AUC（平均值：0.94 至 0.99；标准差：0 至 0.01）（图 2 和 SI 附录，图 S4）。这些结果证明了 stDNN 模型在不同交叉验证折和不同 session 之间具有可重复的性别差异，且无需额外训练。

HCP 队列中性别差异背后大脑特征的独特性

接下来，我们使用基于 XAI 的方法来识别区分女性和男性大脑分类背后的脑部特征。我们通过积分梯度程序 (58) 确定了每个参与者体内预测性大脑特征的个体指纹（SI 附录，图 S5）。简而言之，个体的“指纹”指的是由 IG 导出的 stDNN 模型特征重要性构成的独特全脑模式，该模式将该个体分类为女性或男性。我们通过测量 IG 导出的动态大脑特征之间的相似性，评估了区分女性和男性的大脑特征的有效性。根据它们的指纹，相同性别的个体被清晰地分入同一个聚类（图 3A）。为了进一步验证我们的发现，我们分别生成了女性和男性的组水平指纹。对于每个个体，我们使用皮尔逊相关计算了其指纹与组水平指纹之间的相似度，以及组水平指纹之间的相似度。通过 Fisher-Z 检验，我们发现，对于所有男性而言，个体水平指纹与组水平男性指纹的相似度显著高于与组水平女性指纹的相似度（3.35 < Zs < 14.79, ps < 1e-4；图 3A）。同样，对于所有女性，个体水平指纹与组水平女性指纹的相似度显著高于与组水平男性指纹的相似度（3.22 < Zs < 14.84, ps < 1e-4；图 3A）。这些结果表明，stDNN 结合 IG 程序能够可靠地识别出性别差异背后的区分性大脑特征，无需进行特定的特征工程。

图3：HCP (A)、NKI-RS (B) 和 MPI Leipzig (C) 队列中性别差异背后大脑指纹（特征归因图）的独特性。基于已训练的 HCP session 1 stDNN 模型，个体指纹（特征归因图）的 t-SNE 图显示了三个队列中男性和女性大脑指纹的清晰聚类。来自已训练的 HCP session 1 stDNN 模型的个体指纹与组水平指纹之间相似

HCP 队列中性别差异背后大脑特征的一致性分析

接下来，我们试图识别出最能稳定区分女性和男性大脑的大脑特征。为此，我们在四个 HCP session 的每一个中，使用多次五折交叉验证迭代进行了一致性分析，旨在识别不受任何单一数据交叉验证分割影响的特征。简而言之，对于每个 HCP session，我们在特定 HCP session（模型 session）的不同子集上训练了 500 个模型，用于计算特定 HCP session（测试 session）中所有受试者的基于 IG 的特征归因，从而得到测试 session 的 500 组特征归因（详见材料与方法）。然后，我们识别出每组中排名前 20% 的特征，统计它们在所有组中出现的次数，并使用二项分布设定阈值。对所有 HCP session 配对重复此过程，最终得到 16 个一致性图谱（4 个 HCP 模型 session × 4 个 HCP 测试 session；图 4）。在所有 16 个一致性图谱中，我们确定楔前叶、腹内侧前额叶皮层、腹外侧前额叶皮层、背外侧前额叶皮层和颞上回是最稳定贡献于性别差异的大脑区域（图 4 和 SI 附录，表 S3）。

一致性图谱展示了在每一对 HCP session（一个作为训练集 session，另一个作为测试集 session）中，支撑男性与女性分类的稳健区分性特征，包括楔前叶、腹内侧前额叶皮层、腹外侧前额叶皮层、背外侧前额叶皮层和颞上回（脑区详细列表及所有 16 个一致性图谱中的总出现次数参见 SI 附录，表 S4）。

HCP 队列中性别差异背后个体内大脑特征的稳定性分析

稳定性分析的结果证实，构成性别差异基础的大脑特征在个体参与者水平上是稳定的（SI 附录，补充结果）。

在 HCP 队列中使用不同大脑图谱、伪影减少方法和头动的控制分析

多项控制分析的结果证实，我们的发现在不同大脑图谱和伪影减少方法（SI 附录，表 S4）以及头动（SI 附录，补充结果）方面都是稳健的。

在 HCP 队列上训练的性别分类模型向独立 NKI-RS 和 MPI Leipzig 队列的泛化

接下来，我们检验了在 HCP 数据上训练的 stDNN 模型，在无需任何额外训练的情况下，能否使用来自 NKI-RS 和 MPI Leipzig 队列的 rsfMRI 数据区分女性和男性。我们首先将基于 HCP session 1 数据训练的 stDNN 模型应用于 NKI-RS 队列数据（N = 205），该队列由 108 名女性和 97 名男性组成，其年龄与 HCP 队列相匹配。在四个 HCP session 中，我们选择基于 HCP session 1 数据训练的 stDNN 模型来评估泛化能力和进行后续分析，因为它在四个 session 中取得了最佳的跨 session 泛化能力（图 2 和 SI 附录，图 S4）。我们发现，基于 HCP session 1 rsfMRI 数据训练的 stDNN 模型在 NKI-RS 队列数据中，五折交叉验证的平均准确率达到 81.84 ± 1.43%，平均宏精度为 0.83 ± 0.01，宏召回率为 0.82 ± 0.02，宏 F1 分数为 0.81 ± 0.02，AUC 为 0.90 ± 0.01（SI 附录，表 S5）。

随后，我们将基于 HCP session 1 数据训练的 stDNN 模型应用于 MPI Leipzig 队列的 rsfMRI 数据（N = 215），该队列由 78 名女性和 137 名男性组成，年龄与 HCP 队列相匹配。我们发现，基于 HCP session 1 rsfMRI 数据训练的 stDNN 模型在 MPI Leipzig 队列数据中，五折交叉验证的平均准确率达到 82.60 ± 1.68%，平均宏精度为 0.82 ± 0.02，宏召回率为 0.82 ± 0.01，宏 F1 分数为 0.81 ± 0.01，AUC 为 0.89 ± 0.01（SI 附录，表 S5）。这些结果表明，在无需任何额外训练的情况下，人类功能性大脑组织中存在可泛化的性别差异，并能在新队列中得到验证。

一致性图谱展示了在 NKI-RS 和 MPI Leipzig 队列以及跨三个队列（HCP、NKI-RS 和 MPI Leipzig）中，支撑男性与女性分类的稳健区分性特征，包括楔前叶、腹内侧前额叶皮层、腹外侧前额叶皮层、背外侧前额叶皮层和颞上回（脑区详细列表及出现次数参见 SI 附录，表 S6–S8）。

NKI-RS 和 MPI Leipzig 队列中性别差异背后大脑特征的独特性

我们通过测量 IG 导出的动态大脑特征之间的相似性，评估了区分女性和男性的大脑特征的独特性。使用基于 HCP session 1 数据训练的 stDNN 模型，为 NKI-RS 队列和 MPI Leipzig 队列中的每个参与者计算了个体指纹（SI 附录，图 S6）。在两个队列中，相同性别的个体被清晰地分入同一个聚类（图 3 B 和 C）。我们进一步使用分别针对女性和男性的组水平指纹来评估其独特性。对于每个个体，我们使用皮尔逊相关计算了其指纹与组水平指纹之间的相似度，以及组水平指纹之间的相似度。通过 Fisher Z 检验，我们发现，对于所有男性而言，个体水平指纹与组水平男性指纹的相似度显著高于与组水平女性指纹的相似度（NKI-RS：6.27 < Zs < 14.18，ps < 1e-4，图 3B；MPI Leipzig：3.86 < Zs < 16.19，ps < 1e-4，图 3C）。同样，对于所有女性，个体水平指纹与组水平女性指纹的相似度显著高于与组水平男性指纹的相似度（NKI-RS：4.61 < Zs < 14.53，ps < 1e-4，图 3B；MPI Leipzig：5.78 < Zs < 15.20，ps < 1e-4，图 3C）。这些结果证明了在两个独立队列中，构成性别差异基础的大脑特征具有独特性。

在 NKI-RS 和 MPI Leipzig 队列中使用不同大脑图谱、伪影减少方法和头动的控制分析

多项控制分析的结果证实，我们的发现在不同大脑图谱和伪影减少方法（SI 附录，表 S9 和 S10）以及头动（SI 附录，补充结果）方面都是稳健的。

构成性别差异基础的大脑特征的网络水平差异

扩展我们对区域大脑特征的分析，我们接下来考察了 20 个大脑网络中的性别差异，包括 17 个皮层网络 (65) 和三个额外的皮层下网络（涵盖杏仁核-海马、纹状体和丘脑）。我们计算了每个网络中加权大脑特征的效应量，并根据效应量在六个数据集（包括四个 HCP session 以及 NKI-RS 和 MPI Leipzig 队列）中的一致性进行排序。我们发现，默认模式网络最一致地显示出最大的效应量（Cohen's d > 2），其次是纹状体和边缘网络（d > 1.5）（图 6）。这些结果汇聚并扩展了关于区分女性和男性大脑的大脑特征的区域水平一致性分析。

▲大脑网络的排序基于其在 4 个 HCP session 以及两个独立队列（NKI-RS 和 MPI Leipzig）中效应量的大小排名。这 20 个网络包括 17 个皮层网络 (65) 和三个皮层下网络（涵盖纹状体、杏仁核-海马和丘脑）（SI 附录，表 S18）。背侧默认模式网络在所有网络和队列中显示出最大的效应量（Cohen's d > 2），其次是纹状体和边缘网络（d > 1.5）。排序顺序：DMN-1 = 背侧默认模式网络；Striatum = 纹状体；DMN-2 = 腹侧默认模式网络；Limbic-2 = 边缘网络；SomMot-2 = 躯体运动网络；VisCent = 视觉中央网络；Limbic-1 = 边缘网络；FPN-1 = 额顶网络；Thalamus = 丘脑；Amy-Hip = 杏仁核-海马网络；VisPeri = 视觉外周网络；DorsAttn-2 = 背侧注意网络；SalVentAttn-1 = 突显/腹侧注意网络；DMN-3 = 默认模式网络；SalVentAttn-2 = 突显/腹侧注意网络；FPN-2 = 额顶网络；AudLang = 听觉语言网络；FPN-3 = 额顶网络；SomMot-1 = 躯体运动网络；DorsAttn-1 = 背侧注意网络。

使用传统机器学习方法的性别差异泛化能力检验

我们检验了七种传统机器学习方法的泛化能力 (66)。与许多 prior rsfMRI 研究一致 (31, 33, 34, 36–38)，我们在分类分析中使用了预先计算的 246 个脑区之间的功能连接作为脑部特征。我们首先在 HCP session 1 数据上使用五折交叉验证流程训练和测试模型，然后评估其在独立的 NKI-RS 和 MPI Leipzig 队列上的泛化能力（无需任何额外训练）。这些分析表明，与我们的 stDNN 模型不同，传统方法不能很好地泛化到来自独立队列的未训练数据（SI 附录，表 S11–S13 和补充结果）。

认知功能的性别特异性神经生物学预测因子

我们考察了 HCP 队列中来自 NIH Toolbox 的一套包含 14 项认知指标的全面测试，包括情景记忆、认知灵活性、反应抑制、流体智力、阅读能力、词汇理解能力、处理速度和延迟折扣（SI 附录，表 S14）。使用方差最大旋转的主成分分析识别出三个成分，共同解释了总方差的 47.7%（SI 附录，图 S7）。第一成分与一般智力相关，第二成分与反应抑制和处理速度相关，第三成分与延迟折扣和奖赏敏感性相关。这三个成分的分数被用来为每个个体导出认知特征。随后，我们使用典型相关分析（CCA；SI 附录，图 S3B）考察了认知功能的性别特异性神经生物学预测因子，其中以三个主成分作为行为变量，以 246 个脑区的特征重要性作为脑部变量。

我们首先使用如上所述的 HCP session 1 的大脑特征进行 CCA，以确定大脑与认知测量之间关系的预测因子中的性别差异。在男性中，CCA 产生了三个典型模式，其平方典型相关系数分别为 0.62、0.53 和 0.48（图 7A）。CCA 模型具有统计学显著性（Pillai's trace = 1.624，P = 0.024，95% CI：1.406 至 1.621，置换检验），并解释了超过 90% 的方差。然后我们进行了降维分析以确定显著的典型模式 (67)。完整模型（模式 1 至 3）具有统计学显著性 [F(738, 720.96) = 1.17，P = 0.016，95% CI：0.86 至 1.16]，而模式 2 至 3 [F(490, 482) = 0.99，P = 0.54，95% CI：0.84 至 1.19] 和模式 3 [F(244, 242) = 0.88，P = 0.84，95% CI：0.78 至 1.29] 未能解释大脑与认知测量之间额外的显著共享方差，表明只有模式 1 是相关的 (67)。经过 FDR 校正的置换检验进一步证实了模式 1 的显著性（P = 0.009，模式 1 的 95% CI 为 0.50 至 0.60）。在男性中，与背外侧前额叶皮层、后扣带皮层、楔前叶和中央后回相关的大脑特征预测了与延迟折扣和奖赏敏感性相关的第三成分分数（SI 附录，表 S15）。

▲(A) 基于HCP session 1数据中男性建立的CCA模型，能够预测男性的认知特征，但不能预测女性的认知特征。

(B) 基于HCP session 1数据中女性建立的CCA模型，能够预测女性的认知特征，但不能预测男性的认知特征。

(D) 基于HCP session 3数据中女性建立的CCA模型，能够预测女性的认知特征，但不能预测男性的认知特征。

折线图展示了平方典型相关系数，表示每个CCA模式所解释的方差。灰色区域显示通过置换检验估计的零分布的第五和第九十五百分位数。

在女性中，CCA产生了三个典型模式，其平方典型相关系数分别为0.55、0.49和0.42（图7B）。总的来说，包含所有模式的完整模型具有统计学显著性（Pillai's trace = 1.453，P = 0.001，95% CI：1.190 至 1.381，置换检验），并解释了变量集之间共享方差的86%。降维分析显示，完整模型（模式1至3）具有统计学显著性 [F(738, 978.95) = 1.26，P = 4e-4，95% CI：0.87 至 1.14]，而模式2至3 [F(490, 654) = 1.11，P = 0.10，95% CI：0.85 至 1.18] 和模式3 [F(244, 328) = 0.97，P = 0.59，95% CI：0.79 至 1.26] 未能解释大脑与行为测量之间统计上显著的共享方差，表明只有模式1是相关的 (67)。经过FDR校正的置换检验进一步证实了模式1的显著性（P = 0.002，模式1的95% CI 为 0.43 至 0.52）。在女性中，与腹内侧前额叶皮层、颞中回、后扣带皮层、楔前叶和中央后回相关的大脑特征预测了与一般智力相关的第一成分分数（SI 附录，表 S16）。

随后，我们检验了来自男性的CCA模型能否预测女性的认知特征，以及来自女性的CCA模型能否预测男性的认知特征。将训练好的男性模型应用于女性数据，得到模式1的平方典型相关系数为 0.008，置换检验结果不显著（P > 0.99；图7A）。类似地，将训练好的女性模型应用于男性数据，得到模式1的平方典型相关系数为 0.005，置换检验结果也不显著（P > 0.93；图7B）。

这些结果表明，来自男性的CCA模型不能预测女性的认知特征，反之，来自女性的CCA模型也不能预测男性的认知特征。

认知功能的性别特异性神经生物学预测因子的重复验证

为了检验我们发现的可重复性，我们在HCP session 3数据上进行了CCA。在男性中，CCA产生了三个模式，每个连续功能的平方典型相关系数分别为0.60、0.56和0.50（图7C）。总的来说，包含所有模式的完整模型具有统计学显著性（Pillai's trace = 1.659，P = 0.004，95% CI：1.403 至 1.620，置换检验），并解释了变量集之间共享方差的很大一部分，约91%。降维分析显示，完整模型（模式1至3）具有统计学显著性 [F(738, 720.96) = 1.22，P = 0.004，95% CI：0.86 至 1.16]，而模式2至3 [F(490, 482) = 1.11，P = 0.13，95% CI：0.84 至 1.19] 和模式3 [F(244, 242) = 0.99，P = 0.54，95% CI：0.78 至 1.29] 未能解释变量集之间统计上显著的共享方差，表明只有模式1是相关的 (67)。经过FDR校正的置换检验进一步证实了模式1的显著性（P = 0.034，模式1的95% CI 为 0.50 至 0.60）（图7C）。在男性中，与背外侧前额叶皮层、后扣带皮层、楔前叶和中央后回相关的大脑特征再次预测了与延迟折扣和奖赏敏感性相关的第三成分分数（SI 附录，表 S15）。

在女性中，CCA产生了三个模式，每个连续功能的平方典型相关系数分别为0.56、0.46和0.40（图7D）。总的来说，包含所有模式的完整模型具有统计学显著性（Pillai's trace = 1.427，P = 0.008，95% CI：1.201 至 1.398，置换检验），并解释了变量集之间共享方差的很大一部分，约86%。降维分析显示，完整模型（模式1至3）具有统计学显著性 [F(738, 957.95) = 1.20，P = 0.004，95% CI：0.87 至 1.14]，而模式2至3 [F(490, 640) = 1.00，P = 0.50，95% CI：0.85 至 1.18] 和模式3 [F(244, 321) = 0.89，P = 0.84，95% CI：0.79 至 1.26] 未能解释行为与大脑测量之间统计上显著的共享方差，表明只有模式1是相关的 (67)。经过FDR校正的置换检验进一步证实了模式1的显著性（P = 0.001，模式1的95% CI 为 0.43 至 0.52）（图7D）。在女性中，与腹内侧前额叶皮层、颞中回、后扣带皮层、楔前叶和中央后回相关的大脑特征预测了与一般智力相关的第一成分分数（SI 附录，表 S16）。

我们进一步检验了来自男性的CCA模型能否预测女性的认知特征，以及来自女性的CCA模型能否预测男性的认知特征。将训练好的男性模型应用于女性数据，得到模式1的平方典型相关系数为 0.020，置换检验结果不显著（P > 0.99；SI附录）。类似地，将训练好的女性模型应用于男性数据，得到模式1的平方典型相关系数为 0.025，置换检验结果也不显著（P > 0.99；图7D）。这些结果表明，来自男性的CCA模型不能预测女性的认知特征，来自女性的CCA模型也不能预测男性的认知特征。

由于NKI-RS和MPI Leipzig队列未收集参与者的NIH Toolbox行为数据，因此无法在这些队列上进行类似的分析。

总之，这些结果表明，结合了积分梯度程序的stDNN模型能够捕捉动态大脑特征及其对性别差异分类的重要性，从而识别出对女性和男性认知特征具有不同预测作用的性别特异性大脑特征。

传统方法未能揭示认知功能的性别特异性神经生物学预测因子

最后，我们发现，使用静态功能连接测量作为大脑特征的传统方法未能揭示认知功能的性别特异性神经生物学预测因子，反而揭示了支撑认知个体差异的性别不变性大脑特征（SI 附录，图 S8 和补充结果）。

讨论

我们利用应用于rsfMRI数据的深度神经网络，考察了功能性大脑组织中的性别差异。我们的方法标志着对传统方法的重大突破，它直接从原始rsfMRI时间序列数据中学习潜在的大脑动态，绕过了对区域间功能连接等预先工程化特征的需求。一种创新的数据增强策略使我们能够训练一个更深的神经网络模型 (55, 68)（SI附录），该模型在区分女性和男性大脑方面表现出高准确性、可重复性，并在同一批个体的多个扫描session以及三个独立的年轻成人队列中具有泛化能力。我们的发现为女性和男性大脑在内在组织方式上的差异提供了强有力的可重复证据。此外，我们的分析揭示了功能性大脑组织与认知之间关系中既存在性别不变性也存在性别特异性的差异。我们的研究增进了对大脑功能中性别差异及其与行为关系的理解。

我们研究的第一个目标是使用stDNN模型探究人类功能性大脑组织中是否存在可靠的性别差异。我们的stDNN模型发现了可靠的性别差异，交叉验证分类准确率超过90%，优于先前的研究 (31–34, 36–38)（SI附录，表S1）。此外，在交叉验证分类准确率中观察到的较窄的标准差范围进一步证明了我们分类的可靠性。这些结果表明，基于深度神经网络中潜在时空动态表征的人工智能技术可以可靠地揭示人脑中的性别差异。

我们的第二个目标是在建立大脑组织中一致的性别差异的背景下，解决神经科学中的可重复性危机。我们试图确定这些差异是否能在来自同一批个体的多session数据中重复，并进一步泛化到独立队列。我们发现，我们的stDNN模型不仅在同一批个体的HCP多session数据中揭示了可重复的人脑性别差异，而且无需任何额外模型训练即可泛化到来自NKI-RS和MPI-Leipzig队列的新数据。据我们所知，功能性大脑组织中的性别差异跨session和跨独立队列的重复与泛化此前尚未得到证实。关键是，我们的模型在测试集和独立数据集上的表现都优于先前的研究 (31–34, 36–38)（总结见SI附录，图S1和表S1）。值得注意的是，使用较弱算法导致了一个错误的结论，即较差的分类准确率反映了女性和男性功能性大脑组织的连续性 (69)。我们的结果提供了迄今为止最有说服力且可泛化的证据，驳斥了这一连续谱假说，并有力地证明了人类功能性大脑组织中的性别差异。

我们的第三个目标是识别构成大脑组织中性别差异的、神经生物学上可解释的特征，评估其稳定性、跨session的可重复性以及跨独立队列的泛化能力。传统的深度神经网络模型，尤其是应用于时间序列数据的模型，通常作为黑箱模型运行 (70)，无法提供对驱动分类的神经特征的洞察。为了解决这个问题，我们采用了XAI方法，这使我们能够精确定位与性别差异相关的大脑特征（SI附录，图S2）。这项技术不仅识别了与性别差异相关的个体化大脑特征，而且通过一致性和交叉验证分析，确认了它们在HCP各session以及独立NKI-RS和MPI-Leipzig队列中的稳定性、可重复性和泛化能力。

值得注意的是，我们发现与DMN相关的大脑特征最可靠地区分了女性和男性大脑，这一发现在区域和网络层面上都是一致的，且具有大的效应量（d > 2.0）。这一发现解决了先前关于性别差异的不一致报告 (26, 27, 29, 37, 38, 71)。通过一致性分析，我们进一步确定了DMN的后扣带皮层、楔前叶和腹内侧前额叶皮层节点是性别之间最一致的区分器。DMN在整合自我参照信息处理和监测内部心理活动 (72, 73) 中起着关键作用，包括内省、走神和自传体记忆检索 (71, 72, 74)。这些认知过程可能在女性和男性之间存在差异，潜在地影响着自我调节、信念和社会互动。DMN中的性别特异性差异也可能影响女性和男性回忆过往经历、形成自我概念或进行观点采择的方式。我们的发现强调了DMN在阐明大脑功能性别差异中的关键作用，并推进了我们对这些差异如何影响各种认知和社会行为的理解。

值得注意的是，网络分析还揭示了纹状体和边缘网络中的巨大差异（d > 1.5）。虽然纹状体并非研究人类功能性大脑组织中性别特异性差异的主要焦点，但有相当多的证据表明其解剖结构存在性别二态性 (20, 29)。纹状体对于学习线索关联、习惯形成、强化学习和奖赏敏感性至关重要 (75)。与此同时，我们还观察到边缘网络存在显著差异，其中最突出的是眶额皮层 (65)。眶额皮层参与学习与反转刺激-强化关联，以及在先前的强化权变关系改变导致行为反应不再适当时进行纠正 (76)。人类眶额皮层还涉及表征奖赏价值、预期奖赏价值以及强化物的主观愉悦度 (77)。这种与主观愉悦度的联系可以为研究边缘网络在享乐体验性别差异中的作用提供基础。

总的来说，我们的发现表明，女性和男性在参与涉及自我参照和内部心理过程、奖赏敏感性、强化学习以及主观愉悦体验的动态功能回路方面存在差异。值得注意的是，DMN、纹状体和边缘网络也是在患病率上存在女性或男性偏向的精神疾病的功能障碍位点，包括自闭症、注意缺陷障碍、抑郁症、成瘾、精神分裂症和帕金森病，这些疾病都具有性别特异性的后遗症和结局 (78–86)。因此，我们的发现可能为研究个体精神和神经疾病易感性的性别差异提供一个模板。

我们研究的最终目标是确定功能性大脑组织中的性别差异是否能以不同方式预测女性和男性的认知特征。尽管对性别差异的解剖学和功能学基础进行了广泛研究，但区分性别的大脑特征的行为意义仍不清楚，这反映了关于大脑和行为测量中性别差异的持续争论 (63, 87–92)。关键在于，通过XAI识别出的、可靠地区分两性功能性大脑组织的大脑特征，也预测了女性和男性独特的认知特征。这些特征是通过对使用广泛使用的NIH Toolbox (64) 进行的全面认知评估进行主成分分析得出的，揭示了三个关键成分：一般智力、反应抑制与处理速度、以及延迟折扣与奖赏敏感性。尽管神经典型行为中性别差异的可靠性一直存在争议 (63, 87, 88, 90)，但对神经发育和精神疾病的临床研究一致指出，男性表现出更多的外化问题，而女性则倾向于表现出内化问题 (6, 7, 86)。最后，值得注意的是，与我们基于stDNN的性别特异性发现相比，静态功能连接识别出的是预测两性认知特征的性别不变性大脑特征，而非性别特异性特征。这些结果表明，动态和静态功能连接方法可能作为互补工具，用于识别支撑认知个体差异的性别特异性和性别不变性大脑特征。

结论

我们的研究为人类功能性大脑组织中可重复和可泛化的性别差异提供了令人信服的证据。我们在DMN、纹状体和边缘网络中识别出了可重复和可泛化的、区分性别的脑部特征。关键在于，这些大脑特征预测了女性和男性独特的认知特征模式，证明了它们的行为意义。发现支撑性别差异的稳健功能性大脑特征，有望为研究精神和神经疾病中的性别差异提供定量精确的模型。这项工作为认知神经科学研究和临床应用中更具针对性和个性化的方法铺平了道路。

材料与方法研究队列与参与者

鉴于HCP队列的大样本量，我们使用HCP的多session静息态功能磁共振成像和表型数据作为主要队列。我们使用了两个独立队列的数据：NKI-RS (40) 和 MPI Leipzig Mind-Brain-Body (41) 队列，以检验我们从HCP队列发现的重复性和泛化能力。SI附录表S2显示了人口统计学信息，表S17显示了头动统计量，图S9显示了参与者筛选流程。详见SI附录补充方法。

数据增强

我们采用了一种数据增强策略，使得我们能够训练出本研究中所使用的深度且可泛化的stDNN模型（详见SI附录补充方法）。简而言之，我们对训练HCP数据集中的每个多元时间序列应用了窗口大小为256、重叠为64的滑动窗口。结果，训练数据集从800个样本增长到12,000个样本，增加了近15倍。

stDNN模型

我们开发了一种创新的 stDNN 模型，该模型以静息态功能磁共振成像时间序列为输入，提取能够准确区分年轻成年女性和男性的潜在大脑动态特征 (93)（详见 SI 附录补充方法）。简而言之，我们的 stDNN 模型包含两个用于时空输入转换的一维 CNN 模块，并结合 ReLU 和最大池化层进行特征提取和降维（SI 附录，图 S2）。它还包括一个“时间平均”操作，然后是一个用于二分类的 sigmoid 层。stDNN 的输入是每个受试者的ROI 功能磁共振成像时间序列矩阵，其中对应于 Brainnetome 图谱，数据通过具有不同滤波器数量和尺寸的层进行处理。我们使用了 dropout 层和 L2 范数正则化来防止过拟合，并采用了二元交叉熵优化、15 个周期的训练循环以及 Adam 优化器来微调参数。

HCP 队列中的五折交叉验证分类分析

为了消除偏差并考虑低方差，我们进行了五折交叉验证，以评估我们的 stDNN 模型在区分女性和男性方面的性能（准确率、宏精度、宏召回率、宏 F1、AUC）（SI 附录，图 S3A；详见 SI 附录补充方法）。我们使用了分层分割流程，以确保训练和测试样本按性别均等划分。

识别性别分类/差异背后的大脑特征

我们采用基于 IG 的特征归因方法来识别区分女性和男性的大脑特征（详见 SI 附录补充方法）。

HCP 队列中性别差异背后大脑特征的独特性

我们通过测量 HCP session 1（表现出最佳跨 session 可重复性）中 IG 导出的动态大脑特征之间的相似性，评估了区分女性和男性的大脑特征的有效性。简而言之，对于每个个体，我们计算了其指纹与同性别的组水平指纹之间的皮尔逊相关（r12）、与异性的组水平指纹之间的皮尔逊相关（r13），以及组水平男性和女性指纹之间的皮尔逊相关（r23）。我们将相关系数转换为 Fisher-Z 分数，并使用 R 函数 diffcor.dep 来确定，在给定 r12 和 r13 之间相关性的情况下，r12 是否与 r13 存在显著差异（详见 SI 附录补充方法）。

HCP 队列中性别差异背后大脑特征的一致性分析

接下来，我们进行了一致性分析，以识别能够一致区分女性和男性大脑的大脑特征，该分析使用了跨四个 HCP session 的多次五折交叉验证迭代（详见 SI 附录补充方法）。简而言之，我们从每个 session 的 100 次交叉验证迭代中训练了 500 个 stDNN 模型，应用 IG 方法估计每个脑区和时间点的特征归因，然后识别出排名前 20% 的特征。我们跨受试者和 session 汇总了这些特征，并应用二项式检验来确定最一致的区分器，最终得到 16 个一致性图谱（4 个 HCP 模型 session × 4 个 HCP 测试 session；图 4）。

HCP 队列中性别差异背后个体内大脑特征的稳定性分析

我们研究了区分女性和男性的大脑特征在个体水平上的稳定性。简而言之，对于每个个体，我们计算了其在 session 1 和 session 2 中指纹之间的皮尔逊相关（跨 session 个体内相似性；r12）、其在 session 1 中的指纹与 session 2 中所有其他个体指纹之间的平均皮尔逊相关（跨 session 个体间相似性；r13），以及其在 session 2 中的指纹与 session 2 中所有其他个体指纹之间的平均皮尔逊相关（session 内个体间相似性；r23）。将相关系数转换为 Fisher-Z 分数后，我们使用 R 函数 diffcor.dep 来确定，在给定其互相关 r23 的情况下，r12 是否与 r13 存在显著差异。我们使用 HCP session 3 和 4 重复了此分析以进行验证（详见 SI 附录补充方法）。

HCP 队列中使用不同大脑图谱、伪影减少方法和头动的控制分析

为了验证分类结果的稳健性，我们针对不同的图谱、运动相关伪影减少方法和头动，测试了跨 session 可重复性最佳的 HCP session 1 模型（详见 SI 附录补充方法）。简而言之，我们基于几个备选图谱提取了静息态功能磁共振成像时间序列，并使用 stDNN 和交叉验证分析检验了分类准确率。然后，我们在分析中加入了运动剔除 (94) 和 aCompCor (95) 方法，以考察运动和生理噪声的影响。最后，我们分别计算了女性和男性中特征强度与平均逐帧位移之间的平方距离相关性 (dcor2) (96)，以评估运动对我们结果的影响。

在 HCP 队列上训练的性别分类模型向独立 NKI-RS 和 MPI Leipzig 队列的泛化

我们使用了跨 session 可重复性最佳的、基于 HCP session 1 的模型，来检验其对独立队列的泛化能力。为了评估我们的 stDNN 模型在独立 NKI-RS 和 MPI Leipzig 队列上的性能，我们使用了在 HCP session 1 数据不同子集上训练得到的五个 stDNN 模型中的每一个（SI 附录，图 S3A；详见 SI 附录补充方法）。请注意，在此分析中，stDNN 模型未在 NKI-RS 或 MPI Leipzig 数据上进行训练。

构成性别差异基础的大脑特征从 HCP 向独立 NKI-RS 和 MPI Leipzig 队列的泛化

接下来，我们使用一致性分析检验了在 HCP 数据中识别出的区分性特征向独立 NKI-RS 和 MPI Leipzig 队列的泛化能力（详见 SI 附录补充方法）。简而言之，对于每个队列，我们使用了在 HCP session 1 数据上训练的 500 个 stDNN 模型，应用 IG 方法估计每个脑区和时间点的特征归因，然后识别出排名前 20% 的特征。在每个队列内，我们跨受试者汇总了这些特征，并应用二项式检验来确定最一致的区分器。

NKI-RS 和 MPI Leipzig 队列中性别差异背后大脑特征的独特性

我们使用针对 HCP 队列描述的相同独特性分析方法，评估了 NKI-RS 和 MPI Leipzig 队列中区分女性和男性的大脑特征的有效性（详见 SI 附录补充方法）。

在 NKI-RS 和 MPI Leipzig 队列中使用不同大脑图谱、伪影减少方法和头动的控制分析

我们使用基于 HCP session 1 的模型，检验了我们在两个独立队列中的分类结果是否对图谱选择、运动相关伪影减少方法和头动具有稳健性（详见 SI 附录补充方法）。

构成性别差异基础的大脑特征的网络水平差异

扩展我们对区域大脑特征的分析，我们考察了 20 个大脑网络中的性别差异，包括 17 个皮层网络 (65) 和三个额外的皮层下网络（涵盖杏仁核-海马、纹状体和丘脑）（SI 附录，表 S18）。具体来说，对于这 20 个网络中的每一个，我们通过对同一网络内所有区域的加权特征归因取平均值来计算网络归因，然后使用双样本 t 检验评估每个网络在网络归因上的性别差异。我们计算了每个网络中性别差异的效应量，并根据效应量在六个数据集（包括四个 HCP session 以及 NKI-RS 和 MPI Leipzig 队列）中的一致性进行排序。

使用传统机器学习方法的性别差异泛化能力检验

为了检验传统功能连接方法的泛化能力，我们使用了 K 近邻、决策树、线性 SVM、逻辑回归、岭分类器、LASSO 和随机森林 (66)。与许多 prior rsfMRI 研究一致，我们使用了预先计算的 246 个脑区之间的功能连接作为特征。我们在 HCP session 1 数据上使用五折交叉验证流程训练和测试模型，然后评估其在独立的 NKI-RS 和 MPI Leipzig 队列上的泛化能力（无需任何额外训练）。

认知功能的性别特异性神经生物学预测因子及其可重复性

我们研究了 stDNN 识别出的大脑特征能否预测女性和男性的认知特征（详见 SI 附录补充方法）。简而言之，使用主成分分析，我们将 14 项 HCP 认知测量指标提炼为三个成分，以创建个体认知特征。然后，我们使用 CCA 考察了 HCP session 1 个体认知特征的性别特异性神经生物学预测因子，并对 HCP session 3 应用了相同的 CCA 流程以检验可重复性（SI 附录，图 S3B）。CCA 模式的显著性通过降维和非参数分析进行评估。最后，我们检验了一个性别的 CCA 模型能否预测异性别的认知特征。

使用静态连接测量检验认知功能的性别特异性神经生物学预测因子的控制分析

我们使用相同的 CCA 流程和作为大脑变量的静态功能连接，来检验 HCP 队列中每个性别的脑-行为关系，以及一个性别的 CCA 模型能否预测异性别的认知特征。

致谢

这项工作得到了美国国立卫生研究院基金 MH084164 (V.M.), EB022907 (V.M.), MH121069 (V.M.), K25HD074652 (S.R.) 和 AG072114 (K.S.) 的资助；以及斯坦福大学 Maternal and Child Health Research Institute 的跨学科倡议和 Uytengsu-Hamilton 22q11 项目 (V.M. and K.S.) 的资助；还有 NARSAD 青年研究员奖 (K.S.) 的资助。

作者贡献

S.R. 和 V.M. 设计了研究；S.R., Y.Z., C.d.l.A., K.S. 和 V.M. 进行了研究；Y.Z. 和 C.d.l.A. 分析了数据；S.R., Y.Z., K.S. 和 V.M. 撰写了论文。

群发资讯网

男性和女性大脑差别，比你想象的更大

热门分类