英国生物银行(UKB)是一项前瞻性流行病学研究计划,招募了逾 50 万名年龄在 40~69 岁之间的参与者。其影像扩展项目共邀请了 10 万名 UKB 参与者进行多模态大脑磁共振成像扫描。这些海量的多模态成像与大量的表型、遗传数据结合,为脑健康相关研究领域提供了很好的资源。本文就 UKB 在神经影像领域的研究进展展开综述。首先概括了 UKB 中神经影像的数据采集和影像学衍生表型,随后从心血管疾病风险因素、调节性因素、脑年龄预测、常态、成功和病态脑老化、环境与遗传因素、认知能力及性别等多个应用层面,分别介绍了 UKB 中的一些典型研究,并对研究中存在的问题和未来发展方向进行了探讨,以期为神经系统疾病的预防和治疗开辟新的研究领域。
引用本文: 林岚, 熊敏, 吴水才. 英国生物银行在神经影像领域应用的研究综述. 生物医学工程学杂志, 2021, 38(3): 594-601. doi: 10.7507/1001-5515.202012059 复制
引言
英国生物银行(UK Biobank,UKB)[1](网址为:https://www.ukbiobank.ac.uk/)是一项前瞻性流行病学科学研究计划,该项目收集了全英国年龄在 40~69 岁之间的 50 万名志愿者(占英国总人口的 0.8%)的基因信息样本、生活方式(包括营养、生活方式和药物使用等)以及亲属关系数据,并对他们多年来在医疗档案中记录的健康信息进行长期跟踪。该研究不仅收集了来自参与者的有价值的基准数据,还将在未来 30 年内追踪他们的健康状况。项目的目标旨在为研究一系列与公共卫生密切相关的疾病,如癌症、心脏病、糖尿病、中风、痴呆、抑郁、关节炎、骨质疏松症、皮肤病和肺病等提供一个强大的平台,以探讨某些特定基因、生活方式和健康状况之间的关系,提高人们对某些遗传性疾病致病基因的认识,帮助下一代改善健康。经过近 7 年的准备,该项目于 2007 年 4 月在英国的曼彻斯特启动,并首次建立了评估中心。作为一个公共实体,UKB 项目资源向所有符合有关伦理和科学标准的研究人员开放[2-3]。
UKB 的影像扩展项目于 2016 年获得资助,计划到 2023 年初步完成[4]。该项目拟扫描 100 000 个现有的 UKB 队列对象。影像学检查包括大脑、心脏和身体的磁共振成像(magnetic resonance imaging,MRI)、低剂量 X 射线骨和关节扫描以及颈动脉超声检查。所有扫描成像队列中受试者的影像数据采集在三个专业影像检查中心完成。预计到 2022 年,成像队列中将有 1 800 名受试者患有阿尔茨海默病(Alzheimer’s disease,AD);1 200~2 800 人将患有帕金森病。2020 年初,UKB 已经处理并公布了超过 40 000 人的神经影像数据。包括健康中、老年受试者在内的大量神经影像资料为研究增龄性大脑和认知退化并发现神经退行性疾病的生物标记物提供了必要的研究基础。
目前,研究者们已经对从海量神经影像数据中检测大脑结构和功能的差异,以及探究行为与临床结果之间关系的重要性达成广泛共识。随着 UKB 在神经影像方面的资源日益丰富,它在常态与病态老化研究领域具有巨大潜力,本文对 UKB 在神经影像领域的研究进行综述,概括了 UKB 中神经影像的数据采集和影像学衍生表型(imaging-derived phenotypes,IDPs),并从心血管疾病的风险因素、调节性因素、脑年龄预测、常态、成功和病态脑老化、环境与遗传因素、认知能力及性别等多个应用层面,分别介绍了 UKB 的一些典型研究,并对研究中存在的问题和未来发展方向进行了探讨,以期为神经系统疾病的预防和治疗开辟新的研究领域。
1 神经影像采集和 IDPs
在 UKB 中,由于采集对象的数量众多,在综合考虑采集时间、图像质量和鲁棒性等因素后,将整个脑神经图像的采集时间限定于 35 min。成像方案包含三种结构 MRI 模态:T1 加权 MRI、T2 加权 MRI 和以 T2*加权梯度回波序列作为序列基础的磁敏感加权成像(susceptibility-weighted imaging,SWI);还有弥散 MRI(diffusion MRI,dMRI)以及两种功能 MRI(functional MRI,fMRI)成像模态:静息态 fMRI(resting-state fMRI,rfMRI)和任务态 fMRI(task fMRI,tfMRI)。所有的影像都是由标准的西门子 3T 超导型 MRI 扫描仪(Skyra 3T,Siemens Healthcare GmbH,德国)进行扫描,并对扫描后的图像进行初步处理和分析。图像采集的具体描述和参数如表 1 所示[5]。多模图像采集顺序为:① T1、② rfMRI、③ tfMRI、④ T2、⑤ dMRI、⑥ SWI,以便于从解剖和神经病理学结构、脑功能活动和局部组织微结构等多方面来反映大脑变化。影像采集过程中采用最新的 MRI 采集技术,严格限定时间,提升了高空间分辨率 dMRI 和 fMRI 的场向梯度和时间分辨率。

在临床研究中,神经影像往往需要经过多种复杂的图像处理,如体素分析、皮质表面分析等,才能将原始神经影像转化为有用特征。所以,UKB 采用了一套复杂的全自动图像处理流程,共提取出 4 350 个反映大脑结构和功能特征的 IDPs,详细描述如表 2 所示。这些 IDPs 可以使临床研究者在一定程度上摆脱复杂的算法分析流程的约束。

2 神经影像领域的具体应用
2.1 心血管疾病风险因素
高血压(hypertension,HT)、高血脂、高血糖分别由血压、甘油三酯和空腹血糖水平的直接测量确定,是心血管疾病的主要危险因素之一。在全球范围内,心血管疾病是死亡的主要原因,且与 AD 等神经退行性疾病高度相关[6]。
在 UKB 的数据集中,大约有 10% 的受试者被诊断患有 HT。Sundaresan 等[7]提出了一个基于 WMH 分布与年龄关系的概率模型,用于提取参数损伤概率图。他们从 UKB 中随机抽取了 1 000 名参与者的 T2 加权 MRI,其中 HT 组为 500 人(年龄范围为 45.5~78.3 岁,平均年龄为 66.3 岁,男女比例为 298∶202),非 HT 组为 500 人(年龄范围为 45.5~78.4 岁,平均年龄为 62.0 岁,男女比例为 243∶257)。结果显示,WMH 的分布概率随着年龄的增加而增大,且 HT 组的深部 WMH 的分布概率明显高于非 HT 组。此外,Feng 等[8]也对 HT、记忆和脑区的关系进行了研究。他们利用大脑图谱将 T2 加权 MRI 划分为 94 个脑区,通过在 rfMRI 的 490 个时间点上测量每个脑区的体素信号均值,提取时间序列,计算所有脑区间信号的相关性,得到功能连接。该研究包括 19 507 名 UKB 的受试者,并且还使用了 1 002 名人类连接组项目受试者和 13 441 名 UKB 神经影像第二次发布版本中的受试者进行交叉验证。研究结果表明,HT 病史与海马功能连接以及前瞻记忆评分降低有关。
近几十年来,肥胖患者数量急剧增加,由肥胖引发的代谢综合征已经成为全球重要的公共健康问题之一。肥胖症患者的中枢神经系统的炎症以及不同脑区结构中少量胶质细胞激活,可导致认知能力下降,增加神经退行性疾病的风险[9]。Dekkers 等[10]基于 UKB 中 12 087 名受试者(平均年龄为 62 岁,年龄范围为 45~76 岁,女性占比为 52.8%)的 T1 加权 MRI 和 dMRI,研究了肥胖症与全脑体积、脑区体积和白质微观结构之间的关系。研究发现,总脂肪百分比(percentage of total body fat,TBF)与丘脑、尾状核、壳状核、苍白球、海马等脑区的体积呈负相关关系。无论男女,TBF 均与各向异性指数呈正相关,但 TBF 也与女性平均扩散率呈负相关。Hamer 等[11]用 UKB [n = 9 652,年龄(55.4 ± 7.5)岁,男性占比为 47.9%]T1 加权 MRI 对体质指数和腰臀比与脑容量之间的关系进行了研究。经一系列协变量调整后发现,肥胖症测量值的水平越高,其灰质体积越小。邦弗朗尼校正后的无假设检验表明,肥胖症与尾状核、壳核、苍白球和伏隔核脑容量有关。
心血管疾病的风险因素可能会增加脑血管疾病和神经退行性疾病的风险,但它们与大脑宏观结构和微观结构间的关联性证据有限。Cox 等[12]在 UKB 中(n = 9 722,年龄范围为 44~79 岁),研究了吸烟、HT、脉压、糖尿病、高胆固醇血症、体质指数和腰臀比等与 T1 加权 MRI 和 dMRI 中 IDPs 之间的关系,发现大多数心血管风险因素与更严重的脑萎缩和白质完整性下降有关。Veldsman 等[13]在 22 059 名 UKB 受试者的基础上进行了一项研究,结果发现健康人的认知能力受到脑血管风险因素的负面影响。结构方程模型显示脑血管疾病风险与执行功能的额顶脑网络中的大脑灰质和白质完整性降低有关。
2.2 调节性因素
随着越来越多的老年人患有神经退行性疾病,研究者们开始关注使用调节性因素对该类疾病进程的影响。营养、生活习惯、睡眠质量、体育活动和认知训练等都可能对大脑认知产生积极影响[14],但其具体作用机制尚不明确。Hamer 等[15]使用来自 UKB 中[n = 5 272,年龄(55.4 ± 7.5)岁,男性占比为 45.6%]的 T1 加权 MRI 数据来检测体育活动与大脑结构之间的联系。受试者需要佩戴腕带三轴加速度计(Axivity AX3,Newcastle-upon-Tyne,英国)测量运动强度,佩戴时长约 7 d[(6.4 ± 1.4)d]。经过多个协变量修正,研究者发现运动强度与脑灰质体积之间存在相关关系。此外,他们还观察到,经过协变量校正后的多元线性回归模型中,体育活动水平与左、右海马体积间存在相关关系。
根据社会大脑假说,人类大脑的复杂程度随着社交活动的复杂程度而协同发展。Taebi 等[16]通过将贝叶斯层次模型与来自 UKB 的大量样本(n = 10 000)相结合,探讨了大脑形态和社交圈丰富程度之间的关系。研究人员发现,对于社交圈丰富并与他人建立有良好友谊的个体,视觉感觉网络存在很强的群体效应。另外,对于缺乏社交能力的人来说,边缘网络的几个脑区的体积会发生较大变化。由此可见,社交活动能够提高社会大脑的长期可塑性。
睡眠质量好对大脑认知有积极影响,而睡眠质量差则可能导致抑郁。了解并调整它们之间的联系,可以对抑郁和相关睡眠问题的治疗提供指导。在一项基于人类连接组项目参与者的睡眠质量调查和 fMRI 的研究中[17],研究人员对来自 UKB 的 8 718 名受试者进行了睡眠研究结果的交叉验证。研究表明,睡眠质量差和抑郁症与功能性连接存在密切关系。在人类连接组项目和 UKB 数据集中,功能连接与睡眠时间的关联模式非常类似。
2.3 脑年龄预测
衰老会严重影响人脑功能,导致认知能力下降,增加患神经退行性疾病的风险。个体对象的大脑年龄预测已被证明在探索与衰老有关的疾病方面起着重要作用[18]。Dinsdale 等[19]利用 UKB 中的 19 687 个 T1 加权 MRI(训练集 12 802,测试集 6 885)构建数据集,开发了一个类似于视觉几何组(visual geometry group,VGG)架构的三维卷积神经网络(convolutional neural networks,CNN)模型,与集成学习相结合来预测脑年龄。男性和女性大脑年龄预测模型的平均绝对误差分别为 2.91 年和 2.71 年。大脑年龄估值差(brain age gap estimation,BrainAGE)与许多临床测量指标结果相关,多种模态的 IDPs 也是如此。Peng 等[20]设计了一种类似于 VGG 网络的三维网络结构,使用 T1 加权 MRI 数据预测脑年龄,设计中采用了数据扩充、预训练、模型正则化、模型集成和预测偏差校正等多种方法。其优良的性能在 UKB 数据集(n = 14 503,训练集 12 949)中得到体现,平均绝对误差为 2.14 年。
大多数大脑年龄预测模型仅用 T1 加权 MRI 进行预测。Cole[21]对 UKB 中的 17 461 名受试者进行了研究,其中训练集为 2 205 名健康受试者,测试集为 520 名健康受试者,剩下的受试者用于 BrainAGE 研究。他们使用 UKB 的六种成像模态的神经影像,利用套索回归建立了一个脑年龄预测模型,该模型对测试集数据的平均绝对误差为 3.55 年。随后,他们对 14 701 名受试者进行了进一步的研究,发现 BrainAGE 的增加与高的舒张压和收缩压以及中风史、糖尿病史、吸烟和饮酒习惯有关。Smith 等[22]认为从多模态角度出发,构建多个基于单模态的脑年龄预测模型具有更大价值。他们从 21 407 名 UKB 受试者的多模态脑成像数据中识别出 62 种大脑老化模式。这些模式分别代表了大脑老化的不同方面,显示了脑功能和结构的不同变化,以及与遗传、生活方式、认知、生理测量和疾病的关联程度。尽管多模态的大脑年龄预测模型未发现遗传关联,但其中许多单模态模型却可以找到在生物学上可解释的遗传关联。Smith 等[22]认为,大脑老化并非单一的均匀过程,对结构和功能变化的不同模式进行建模将更具有生物学意义。
研究人员们提出了一系列估计大脑年龄和使用 BrainAGE 预测疾病的方法[23]。Kolbeinsson 等[24]将 UKB 中的 21 382 个 T1 加权 MRI 分为四组:训练集(n = 3 067)、验证集(n = 3 962)、健康测试人群(n = 2 057)和未选择测试人群(n = 12 296),使用三维残差网络结构的 CNN 建立大脑年龄预测模型(n = 3 067,模型平均绝对误差为 1.71 年)。随后,研究人员将模型应用在未选择测试人群上,与 1 410 个疾病及相关健康问题编码、自我报告的临床状态以及身体、生活方式和环境表型进行相关分析,发现 BrainAGE 中的 24 种诊断和特征之间存在相关性。BrainAGE 相关的诊断和特征为心血管代谢病及其危险因素、认知功能和体育运动等。虽然 BrainAGE 已被用于疾病研究,但是脑年龄预测模型的准确度与 BrainAGE 间关系还不够明确。Smith 等[25]根据模拟和真实数据,评估了不同的脑年龄估计方法对于 BrainAGE 的影响。研究者使用来自 UKB 的 19 000 名受试者的结构 MRI、dMRI 和 fMRI 中的 2 641 个 IDPs 来预测大脑年龄。结果表明,BrainAGE 与 5 792 个非成像变量(非大脑物理测量值、生活因素测量值、认知测试分数等)相关。脑年龄预测模型误差较小并不能意味着模型具有更高临床应用价值,需要结合非成像变量进行综合考虑。
2.4 常态、成功和病态脑老化
老年人的认知老化可分为三种类型:常态老化、成功老化和病态老化[26-27]。常态老化是最常见的认知老化类型,尽管随着年龄增加,认知能力逐渐下降,但认知能力较病态老化更好。Tseng 等[28]以 UKB 中的 7 167 名健康的中老年受试者(年龄范围为 47~76 岁)的 dMRI 数据为基础,探讨了白质纤维束的异质老化效应。他们从 76 个预定义的主要纤维束中提取弥散量化指标。利用这些指标对年龄进行线性拟合估计,得到与增龄相关的白质变化。研究显示了 4 种不同类型的白质老化模式。白质老化的主要模式涉及前额叶的联合、联络和投射纤维,表现为较低的各向异性分数和较高的轴向扩散系数、径向扩散系数和平均扩散系数。其它三种类型主要涉及顶叶、枕叶和颞叶皮质间连接。通过 dMRI 和概率纤维束追踪技术,可建立全脑结构网络,但会产生一定比例的虚假连接。阈值法被广泛应用于去除虚假连接,但是不同的阈值策略是如何影响网络的基本属性及其与年龄等人口统计变量之间的关系,目前尚不明确。Buchanan 等[29]利用 UKB 中 3 153 名健康受试者(年龄范围为 44~77 岁)的 dMRI 数据构建了一个全脑结构网络,并采用两种阈值方法在六种不同的网络权重和四种常见的网络度量上进行研究。研究结果表明,与未设阈值的网络相比,较严格的阈值划分具有更强的年龄关联。另外一项在相同数据集上的研究发现,平均扩散率对年龄最为敏感,而丘脑辐射和相关纤维与年龄间负相关性最强[30]。
成功老化是指个体在老化过程中,认知功能保持较好,AD 风险较低。一般认为,父母长寿,其子女一般具有较高的成功老化几率。Tian 等[31]在 UKB 中确定了 12 970 名受试者(平均年龄为 64.4 岁,女性占比为 51.5%)。根据父母中是否有一方寿命超过 85 岁,将受试者划分为父母长寿组(占比为 57%)和非长寿组(占比为 43%)。父母的长寿与其子女的主要感觉运动皮层和包括海马在内的颞区萎缩减慢有关。病态老化的大脑中一般存在 AD 等神经退行性疾病。海马体积是 AD 的重要生物学指标,AD 的遗传风险与海马萎缩密切相关。虽然对患者海马体积的客观评价可为 AD 的诊断和风险分级提供重要信息,但临床医生需要获得海马体积随年龄变化的完整数据来进行客观评价。Nobis 等[32]用 19 793 名 UKB 中的健康受试者构建了最大的跨年龄海马体积标准数据库。该研究的一个重要发现是,中年人海马的体积萎缩速度明显加快,女性更为明显。海马是一个由多个亚域构成的统一结构。基于 17 161 名认知正常的 UKB 受试者(年龄范围为 44~80 岁)的影像数据,Foo 等[33]研究了海马子区与年龄、性别和 AD 多基因风险评分之间的关系。结果显示,年龄与海马各亚区体积呈负相关。AD 的多基因风险评分的水平与双侧全海马、海马杏仁核过渡区、海马尾部、右侧基底膜等海马子区的萎缩程度相关。与中年组(n = 8 177)相比,老年组(中位年龄 63 岁,n = 8 984)在高风险评分时表现出更大的海马子域损伤。
2.5 环境与遗传因素
空气污染会导致认知能力下降和神经退行性疾病。接触空气污染,特别是暴露于二氧化氮和氮氧化物中,会引发青少年心理疾病[34]。在一项包含了 18 288 名 UKB 参与者的研究中,Gale 等[35]基于 T1 加权 MRI,研究了空气污染和前额叶皮质灰质之间的关系。通过对年龄、性别、教育程度等协变量的调整,在多元回归模型中发现颗粒物(particulate matter,PM)2.5、PM10 与一氧化氮浓度和前额叶体积呈负相关关系。另外,他们还发现教育可以减少空气污染对前额叶的伤害。Hedges 等[36]用 18 278 名 UKB 参与者的数据研究了空气污染对海马体积的影响。除去年龄、性别等协变量影响后,PM2.5 浓度与左海马萎缩程度呈正相关。PM2.5 浓度每增加一个单位,左海马体积将萎缩 0.28%。
脑结构和功能的遗传机制尚不十分清楚。通过对 UKB 中的基因信息和脑成像数据集进行综合分析,可为揭示脑发育、衰老和疾病等方面的结构和功能变化提供遗传依据。Elliott 等[37]对 UKB 中 8 428 名受试者的 3 144 种结构和功能 IDPs 进行了全基因组关联研究,结果发现其中很多 IDPs 具有可遗传性。他们发现,在 148 个簇中,单核苷酸多态性与 IDPs 之间存在相关关系。这些相关因素包括:铁运输和存储基因与皮层下脑组织的磁化率有关,细胞外基质和表皮生长因子基因与白质的微结构和病变有关等。大脑皮层下的脑区对运动、意识、情绪和学习起着重要作用。Satizabal 等[38]对心脏与衰老的基因组流行病学研究(cohorts of heart and aging research in genomic epidemiology,CHARGE)、基于荟萃分析增强神经影像遗传学联盟(enhancing neuro imaging genetics through meta-analysis consortium,ENIGMA)和 UKB 中近 40 000 名受试者进行了全基因组关联分析,确定了伏隔核、杏仁核、脑干、尾状核、苍白球和丘脑体积相关的常见遗传变异,并确定了 48 个相关的位点。利用基因表达、甲基化和神经病理学数据对这些位点进行分析,发现 199 个位点可能与神经发育、突触信号传导、轴突传递、细胞凋亡、炎症/感染以及神经系统疾病易感性等有关。
2.6 认知能力、性别等其他因素
脑容量与智力的关系一直是认知神经科学研究的热点问题之一。Cox 等[39]基于 29 004 名年龄范围为 44~81 岁的 UKB 研究对象(7 201 名受试者同时具有脑影像和完整的四项认知测试数据),根据认知能力测试创建了一个一般智力因素 g,并估算了其与大脑总容量及其他局部结构指标之间的关系。脑容积与 g 之间的相关系数为 0.276。此外,他们还建立了一个包括整体灰质和白质的宏观和微观结构的认知能力评估模型,该模型对老年人群的解释力比中年人群更好。年龄和大脑的相互作用对 g 值有调节作用。关联最密切的脑区包括脑岛、额叶、颞前/上和内侧颞叶、后扣带和副扣带、枕外侧皮质、丘脑体积以及丘脑和联合纤维等白质微结构。
许多神经影像学研究并未考虑到性别差异的潜在影响。从结构和功能上全面理解性别差异,有助于解释行为层面的差异,并为与性别有关的精神病研究提供了重要线索。Ritchie 等[40]基于 UKB 中的 5 216 名受试者(2 750 名女性和 2 466 名男性受试者,年龄范围为 44~77 岁),研究了大脑结构和功能的性别差异。研究结果显示,男性受试者大脑皮层和次皮层体积较大,皮质表面积较大,白质扩散倾向明显;女性受试者大脑皮层较厚,白质纤维束复杂度较高。在两个认知测试中,男性的认知得分较高,部分是受性别结构差异的影响。功能连接显示男性在单峰感觉运动皮层中具有较强的连通性,女性在默认模式网络下具有较强的连通性。
3 讨论与总结
UKB 是一项大型前瞻性群体研究,旨在研究中老年人群体的健康状况。该研究包含了目前世界上最大的由健康人群组成的神经影像数据库,提供有关解剖和生理过程的结构和功能信息。在 UKB 中的所有 MRI 数据都是用同一种 MRI 扫描仪获取的,并使用相同的分析软件进行分析,从而避免了由于使用不同的扫描仪或分析技术而造成的差异。通过严格的数据采集和分析程序,UKB 中的大量同质数据可以为大规模神经影像学分析提供新的重要证据。迄今为止,已发表的成果主要集中于心血管疾病危险因素、调节性因素、脑年龄预测、常态、成功和病态脑老化、环境与遗传因素以及认知能力和性别等问题的横断研究。
目前已发表的脑影像学研究大多基于 UKB 提供的结构和功能的 IDPs,研究者无需对复杂的神经影像进行处理和分析,大幅度简化了分析处理过程。但是这些 IDPs 反映的是脑区的平均特征,依赖于前期的人工选择,特征灵敏度一般比较低,一定程度上减弱了 UKB 大数据带来的优势。从体素水平或皮质顶点分析神经影像,可以从细微尺度上反映大脑的变化。海量的神经影像数据与最新人工智能算法的结合,将进一步促进神经影像分析的发展。当前,研究者们已将最新 CNN 模型结合 UKB 中的原始神经影像数据应用到脑年龄预测领域,模型的误差相对于以往的经典模型降低了 50%。最新人工智能技术与神经影像大数据的结合[41-43],将会在神经影像分割、神经影像分类与神经影像预测等很多领域取得很好的效果。
因为 UKB 中包含数万名受试者的数据,所以在分析时必须考虑适当的数据选择策略。利用 UKB 对满足实验设计方案的全部数据进行分析,能得到具有较高统计性能的结果。但完整的脑影像数据集数据量有数十 TB,每 6~12 个月就会有 5 000~10 000 名新受试者的影像数据加入。对完整数据集进行分析会给数据传输和数据处理带来巨大压力。从结果可复现性和数据传输与计算量两方面考虑,本文认为数据选择策略包含三个决策点。首先,如果在影像分析中采用的是 IDPs,每个实验对象只包含数千个 IDPs 特征,可以采用满足实验设计的数据全集。其次,如果需要对神经影像直接进行处理,可以基于 UKB 中图像的不同发放,或基于采集时间顺序来构建子集,分段对数据进行分析。最后,如果是项目研究初期,进行可行性分析时,可以在前一决策点构建的子集中通过随机采样抽取一定数据来构建数据集。
拥有海量的受试者的 UKB 是研究影像数据和非影像测量之间关系的有力资源。但是,它在提升统计效率的同时,也会带来严重的混淆效应[44]。在研究因果关系时,混淆变量会同时影响假定的原因和假定的结果。如果不能正确处理混淆效应,则可能在配对的独立变量对之间产生虚假关联,最终结果并不能反映实际关系。对于混淆变量,通常需要在模型中进行修正估计,以消除受混淆因素的影响。判断哪些因素是混淆因素是一个复杂的问题。举例来说,年龄可能是某些研究中的一个混淆因素,但在其它一些研究中却是一个关键变量。另外一个例子是性别,性别与潜在的混淆因素(如头部尺寸)相关,并且还可能以复杂的方式影响目标变量,因此研究人员有时需要独立地对不同性别进行关联分析。此外,UKB 成像数据受扫描仪的位置、其他参数和配置等因素的影响,海量数据也意味着即使是很小的杂音也会导致统计问题。在提出科学问题并进行研究前,要从实际问题出发,考虑如何消除实验设计中的混淆效应影响。
虽然目前的 UKB 已经涉及了相当广泛的科学问题,但 UKB 的影像扩展项目严格说还是处于起步阶段。目前,主要研究还是针对认知能力正常的健康人群进行横断研究。随着时间的推移,影像队列中会出现越来越多的各种增龄性神经退行性疾病患者。届时,纵向随访研究可以帮助研究者研究疾病的发生与发展过程。举例来说,新冠肺炎当前正在全球流行,UKB 中患有新冠的受试者的后续随访数据就可以为研究新冠对脑结构、功能和认知的长期影响提供必要的依据。另外,由于 UKB 中包含海量的脑成像数据与高通量基因组学数据,因此,对 UKB 进行影像基因组学研究也是其一个重要研究发展方向。将脑神经影像与基因组影像进行整合,挖掘它们之间的关系,可以发现能够反映基因多态性或表达多态性的图像特征。在此基础上,可以深入了解脑表型特征、遗传变异和分子机制,以及它们对正常和紊乱大脑功能和行为的影响。随着 UKB 的影像扩展项目的逐渐成熟,大量新的科学研究也会不断开展。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
英国生物银行(UK Biobank,UKB)[1](网址为:https://www.ukbiobank.ac.uk/)是一项前瞻性流行病学科学研究计划,该项目收集了全英国年龄在 40~69 岁之间的 50 万名志愿者(占英国总人口的 0.8%)的基因信息样本、生活方式(包括营养、生活方式和药物使用等)以及亲属关系数据,并对他们多年来在医疗档案中记录的健康信息进行长期跟踪。该研究不仅收集了来自参与者的有价值的基准数据,还将在未来 30 年内追踪他们的健康状况。项目的目标旨在为研究一系列与公共卫生密切相关的疾病,如癌症、心脏病、糖尿病、中风、痴呆、抑郁、关节炎、骨质疏松症、皮肤病和肺病等提供一个强大的平台,以探讨某些特定基因、生活方式和健康状况之间的关系,提高人们对某些遗传性疾病致病基因的认识,帮助下一代改善健康。经过近 7 年的准备,该项目于 2007 年 4 月在英国的曼彻斯特启动,并首次建立了评估中心。作为一个公共实体,UKB 项目资源向所有符合有关伦理和科学标准的研究人员开放[2-3]。
UKB 的影像扩展项目于 2016 年获得资助,计划到 2023 年初步完成[4]。该项目拟扫描 100 000 个现有的 UKB 队列对象。影像学检查包括大脑、心脏和身体的磁共振成像(magnetic resonance imaging,MRI)、低剂量 X 射线骨和关节扫描以及颈动脉超声检查。所有扫描成像队列中受试者的影像数据采集在三个专业影像检查中心完成。预计到 2022 年,成像队列中将有 1 800 名受试者患有阿尔茨海默病(Alzheimer’s disease,AD);1 200~2 800 人将患有帕金森病。2020 年初,UKB 已经处理并公布了超过 40 000 人的神经影像数据。包括健康中、老年受试者在内的大量神经影像资料为研究增龄性大脑和认知退化并发现神经退行性疾病的生物标记物提供了必要的研究基础。
目前,研究者们已经对从海量神经影像数据中检测大脑结构和功能的差异,以及探究行为与临床结果之间关系的重要性达成广泛共识。随着 UKB 在神经影像方面的资源日益丰富,它在常态与病态老化研究领域具有巨大潜力,本文对 UKB 在神经影像领域的研究进行综述,概括了 UKB 中神经影像的数据采集和影像学衍生表型(imaging-derived phenotypes,IDPs),并从心血管疾病的风险因素、调节性因素、脑年龄预测、常态、成功和病态脑老化、环境与遗传因素、认知能力及性别等多个应用层面,分别介绍了 UKB 的一些典型研究,并对研究中存在的问题和未来发展方向进行了探讨,以期为神经系统疾病的预防和治疗开辟新的研究领域。
1 神经影像采集和 IDPs
在 UKB 中,由于采集对象的数量众多,在综合考虑采集时间、图像质量和鲁棒性等因素后,将整个脑神经图像的采集时间限定于 35 min。成像方案包含三种结构 MRI 模态:T1 加权 MRI、T2 加权 MRI 和以 T2*加权梯度回波序列作为序列基础的磁敏感加权成像(susceptibility-weighted imaging,SWI);还有弥散 MRI(diffusion MRI,dMRI)以及两种功能 MRI(functional MRI,fMRI)成像模态:静息态 fMRI(resting-state fMRI,rfMRI)和任务态 fMRI(task fMRI,tfMRI)。所有的影像都是由标准的西门子 3T 超导型 MRI 扫描仪(Skyra 3T,Siemens Healthcare GmbH,德国)进行扫描,并对扫描后的图像进行初步处理和分析。图像采集的具体描述和参数如表 1 所示[5]。多模图像采集顺序为:① T1、② rfMRI、③ tfMRI、④ T2、⑤ dMRI、⑥ SWI,以便于从解剖和神经病理学结构、脑功能活动和局部组织微结构等多方面来反映大脑变化。影像采集过程中采用最新的 MRI 采集技术,严格限定时间,提升了高空间分辨率 dMRI 和 fMRI 的场向梯度和时间分辨率。

在临床研究中,神经影像往往需要经过多种复杂的图像处理,如体素分析、皮质表面分析等,才能将原始神经影像转化为有用特征。所以,UKB 采用了一套复杂的全自动图像处理流程,共提取出 4 350 个反映大脑结构和功能特征的 IDPs,详细描述如表 2 所示。这些 IDPs 可以使临床研究者在一定程度上摆脱复杂的算法分析流程的约束。

2 神经影像领域的具体应用
2.1 心血管疾病风险因素
高血压(hypertension,HT)、高血脂、高血糖分别由血压、甘油三酯和空腹血糖水平的直接测量确定,是心血管疾病的主要危险因素之一。在全球范围内,心血管疾病是死亡的主要原因,且与 AD 等神经退行性疾病高度相关[6]。
在 UKB 的数据集中,大约有 10% 的受试者被诊断患有 HT。Sundaresan 等[7]提出了一个基于 WMH 分布与年龄关系的概率模型,用于提取参数损伤概率图。他们从 UKB 中随机抽取了 1 000 名参与者的 T2 加权 MRI,其中 HT 组为 500 人(年龄范围为 45.5~78.3 岁,平均年龄为 66.3 岁,男女比例为 298∶202),非 HT 组为 500 人(年龄范围为 45.5~78.4 岁,平均年龄为 62.0 岁,男女比例为 243∶257)。结果显示,WMH 的分布概率随着年龄的增加而增大,且 HT 组的深部 WMH 的分布概率明显高于非 HT 组。此外,Feng 等[8]也对 HT、记忆和脑区的关系进行了研究。他们利用大脑图谱将 T2 加权 MRI 划分为 94 个脑区,通过在 rfMRI 的 490 个时间点上测量每个脑区的体素信号均值,提取时间序列,计算所有脑区间信号的相关性,得到功能连接。该研究包括 19 507 名 UKB 的受试者,并且还使用了 1 002 名人类连接组项目受试者和 13 441 名 UKB 神经影像第二次发布版本中的受试者进行交叉验证。研究结果表明,HT 病史与海马功能连接以及前瞻记忆评分降低有关。
近几十年来,肥胖患者数量急剧增加,由肥胖引发的代谢综合征已经成为全球重要的公共健康问题之一。肥胖症患者的中枢神经系统的炎症以及不同脑区结构中少量胶质细胞激活,可导致认知能力下降,增加神经退行性疾病的风险[9]。Dekkers 等[10]基于 UKB 中 12 087 名受试者(平均年龄为 62 岁,年龄范围为 45~76 岁,女性占比为 52.8%)的 T1 加权 MRI 和 dMRI,研究了肥胖症与全脑体积、脑区体积和白质微观结构之间的关系。研究发现,总脂肪百分比(percentage of total body fat,TBF)与丘脑、尾状核、壳状核、苍白球、海马等脑区的体积呈负相关关系。无论男女,TBF 均与各向异性指数呈正相关,但 TBF 也与女性平均扩散率呈负相关。Hamer 等[11]用 UKB [n = 9 652,年龄(55.4 ± 7.5)岁,男性占比为 47.9%]T1 加权 MRI 对体质指数和腰臀比与脑容量之间的关系进行了研究。经一系列协变量调整后发现,肥胖症测量值的水平越高,其灰质体积越小。邦弗朗尼校正后的无假设检验表明,肥胖症与尾状核、壳核、苍白球和伏隔核脑容量有关。
心血管疾病的风险因素可能会增加脑血管疾病和神经退行性疾病的风险,但它们与大脑宏观结构和微观结构间的关联性证据有限。Cox 等[12]在 UKB 中(n = 9 722,年龄范围为 44~79 岁),研究了吸烟、HT、脉压、糖尿病、高胆固醇血症、体质指数和腰臀比等与 T1 加权 MRI 和 dMRI 中 IDPs 之间的关系,发现大多数心血管风险因素与更严重的脑萎缩和白质完整性下降有关。Veldsman 等[13]在 22 059 名 UKB 受试者的基础上进行了一项研究,结果发现健康人的认知能力受到脑血管风险因素的负面影响。结构方程模型显示脑血管疾病风险与执行功能的额顶脑网络中的大脑灰质和白质完整性降低有关。
2.2 调节性因素
随着越来越多的老年人患有神经退行性疾病,研究者们开始关注使用调节性因素对该类疾病进程的影响。营养、生活习惯、睡眠质量、体育活动和认知训练等都可能对大脑认知产生积极影响[14],但其具体作用机制尚不明确。Hamer 等[15]使用来自 UKB 中[n = 5 272,年龄(55.4 ± 7.5)岁,男性占比为 45.6%]的 T1 加权 MRI 数据来检测体育活动与大脑结构之间的联系。受试者需要佩戴腕带三轴加速度计(Axivity AX3,Newcastle-upon-Tyne,英国)测量运动强度,佩戴时长约 7 d[(6.4 ± 1.4)d]。经过多个协变量修正,研究者发现运动强度与脑灰质体积之间存在相关关系。此外,他们还观察到,经过协变量校正后的多元线性回归模型中,体育活动水平与左、右海马体积间存在相关关系。
根据社会大脑假说,人类大脑的复杂程度随着社交活动的复杂程度而协同发展。Taebi 等[16]通过将贝叶斯层次模型与来自 UKB 的大量样本(n = 10 000)相结合,探讨了大脑形态和社交圈丰富程度之间的关系。研究人员发现,对于社交圈丰富并与他人建立有良好友谊的个体,视觉感觉网络存在很强的群体效应。另外,对于缺乏社交能力的人来说,边缘网络的几个脑区的体积会发生较大变化。由此可见,社交活动能够提高社会大脑的长期可塑性。
睡眠质量好对大脑认知有积极影响,而睡眠质量差则可能导致抑郁。了解并调整它们之间的联系,可以对抑郁和相关睡眠问题的治疗提供指导。在一项基于人类连接组项目参与者的睡眠质量调查和 fMRI 的研究中[17],研究人员对来自 UKB 的 8 718 名受试者进行了睡眠研究结果的交叉验证。研究表明,睡眠质量差和抑郁症与功能性连接存在密切关系。在人类连接组项目和 UKB 数据集中,功能连接与睡眠时间的关联模式非常类似。
2.3 脑年龄预测
衰老会严重影响人脑功能,导致认知能力下降,增加患神经退行性疾病的风险。个体对象的大脑年龄预测已被证明在探索与衰老有关的疾病方面起着重要作用[18]。Dinsdale 等[19]利用 UKB 中的 19 687 个 T1 加权 MRI(训练集 12 802,测试集 6 885)构建数据集,开发了一个类似于视觉几何组(visual geometry group,VGG)架构的三维卷积神经网络(convolutional neural networks,CNN)模型,与集成学习相结合来预测脑年龄。男性和女性大脑年龄预测模型的平均绝对误差分别为 2.91 年和 2.71 年。大脑年龄估值差(brain age gap estimation,BrainAGE)与许多临床测量指标结果相关,多种模态的 IDPs 也是如此。Peng 等[20]设计了一种类似于 VGG 网络的三维网络结构,使用 T1 加权 MRI 数据预测脑年龄,设计中采用了数据扩充、预训练、模型正则化、模型集成和预测偏差校正等多种方法。其优良的性能在 UKB 数据集(n = 14 503,训练集 12 949)中得到体现,平均绝对误差为 2.14 年。
大多数大脑年龄预测模型仅用 T1 加权 MRI 进行预测。Cole[21]对 UKB 中的 17 461 名受试者进行了研究,其中训练集为 2 205 名健康受试者,测试集为 520 名健康受试者,剩下的受试者用于 BrainAGE 研究。他们使用 UKB 的六种成像模态的神经影像,利用套索回归建立了一个脑年龄预测模型,该模型对测试集数据的平均绝对误差为 3.55 年。随后,他们对 14 701 名受试者进行了进一步的研究,发现 BrainAGE 的增加与高的舒张压和收缩压以及中风史、糖尿病史、吸烟和饮酒习惯有关。Smith 等[22]认为从多模态角度出发,构建多个基于单模态的脑年龄预测模型具有更大价值。他们从 21 407 名 UKB 受试者的多模态脑成像数据中识别出 62 种大脑老化模式。这些模式分别代表了大脑老化的不同方面,显示了脑功能和结构的不同变化,以及与遗传、生活方式、认知、生理测量和疾病的关联程度。尽管多模态的大脑年龄预测模型未发现遗传关联,但其中许多单模态模型却可以找到在生物学上可解释的遗传关联。Smith 等[22]认为,大脑老化并非单一的均匀过程,对结构和功能变化的不同模式进行建模将更具有生物学意义。
研究人员们提出了一系列估计大脑年龄和使用 BrainAGE 预测疾病的方法[23]。Kolbeinsson 等[24]将 UKB 中的 21 382 个 T1 加权 MRI 分为四组:训练集(n = 3 067)、验证集(n = 3 962)、健康测试人群(n = 2 057)和未选择测试人群(n = 12 296),使用三维残差网络结构的 CNN 建立大脑年龄预测模型(n = 3 067,模型平均绝对误差为 1.71 年)。随后,研究人员将模型应用在未选择测试人群上,与 1 410 个疾病及相关健康问题编码、自我报告的临床状态以及身体、生活方式和环境表型进行相关分析,发现 BrainAGE 中的 24 种诊断和特征之间存在相关性。BrainAGE 相关的诊断和特征为心血管代谢病及其危险因素、认知功能和体育运动等。虽然 BrainAGE 已被用于疾病研究,但是脑年龄预测模型的准确度与 BrainAGE 间关系还不够明确。Smith 等[25]根据模拟和真实数据,评估了不同的脑年龄估计方法对于 BrainAGE 的影响。研究者使用来自 UKB 的 19 000 名受试者的结构 MRI、dMRI 和 fMRI 中的 2 641 个 IDPs 来预测大脑年龄。结果表明,BrainAGE 与 5 792 个非成像变量(非大脑物理测量值、生活因素测量值、认知测试分数等)相关。脑年龄预测模型误差较小并不能意味着模型具有更高临床应用价值,需要结合非成像变量进行综合考虑。
2.4 常态、成功和病态脑老化
老年人的认知老化可分为三种类型:常态老化、成功老化和病态老化[26-27]。常态老化是最常见的认知老化类型,尽管随着年龄增加,认知能力逐渐下降,但认知能力较病态老化更好。Tseng 等[28]以 UKB 中的 7 167 名健康的中老年受试者(年龄范围为 47~76 岁)的 dMRI 数据为基础,探讨了白质纤维束的异质老化效应。他们从 76 个预定义的主要纤维束中提取弥散量化指标。利用这些指标对年龄进行线性拟合估计,得到与增龄相关的白质变化。研究显示了 4 种不同类型的白质老化模式。白质老化的主要模式涉及前额叶的联合、联络和投射纤维,表现为较低的各向异性分数和较高的轴向扩散系数、径向扩散系数和平均扩散系数。其它三种类型主要涉及顶叶、枕叶和颞叶皮质间连接。通过 dMRI 和概率纤维束追踪技术,可建立全脑结构网络,但会产生一定比例的虚假连接。阈值法被广泛应用于去除虚假连接,但是不同的阈值策略是如何影响网络的基本属性及其与年龄等人口统计变量之间的关系,目前尚不明确。Buchanan 等[29]利用 UKB 中 3 153 名健康受试者(年龄范围为 44~77 岁)的 dMRI 数据构建了一个全脑结构网络,并采用两种阈值方法在六种不同的网络权重和四种常见的网络度量上进行研究。研究结果表明,与未设阈值的网络相比,较严格的阈值划分具有更强的年龄关联。另外一项在相同数据集上的研究发现,平均扩散率对年龄最为敏感,而丘脑辐射和相关纤维与年龄间负相关性最强[30]。
成功老化是指个体在老化过程中,认知功能保持较好,AD 风险较低。一般认为,父母长寿,其子女一般具有较高的成功老化几率。Tian 等[31]在 UKB 中确定了 12 970 名受试者(平均年龄为 64.4 岁,女性占比为 51.5%)。根据父母中是否有一方寿命超过 85 岁,将受试者划分为父母长寿组(占比为 57%)和非长寿组(占比为 43%)。父母的长寿与其子女的主要感觉运动皮层和包括海马在内的颞区萎缩减慢有关。病态老化的大脑中一般存在 AD 等神经退行性疾病。海马体积是 AD 的重要生物学指标,AD 的遗传风险与海马萎缩密切相关。虽然对患者海马体积的客观评价可为 AD 的诊断和风险分级提供重要信息,但临床医生需要获得海马体积随年龄变化的完整数据来进行客观评价。Nobis 等[32]用 19 793 名 UKB 中的健康受试者构建了最大的跨年龄海马体积标准数据库。该研究的一个重要发现是,中年人海马的体积萎缩速度明显加快,女性更为明显。海马是一个由多个亚域构成的统一结构。基于 17 161 名认知正常的 UKB 受试者(年龄范围为 44~80 岁)的影像数据,Foo 等[33]研究了海马子区与年龄、性别和 AD 多基因风险评分之间的关系。结果显示,年龄与海马各亚区体积呈负相关。AD 的多基因风险评分的水平与双侧全海马、海马杏仁核过渡区、海马尾部、右侧基底膜等海马子区的萎缩程度相关。与中年组(n = 8 177)相比,老年组(中位年龄 63 岁,n = 8 984)在高风险评分时表现出更大的海马子域损伤。
2.5 环境与遗传因素
空气污染会导致认知能力下降和神经退行性疾病。接触空气污染,特别是暴露于二氧化氮和氮氧化物中,会引发青少年心理疾病[34]。在一项包含了 18 288 名 UKB 参与者的研究中,Gale 等[35]基于 T1 加权 MRI,研究了空气污染和前额叶皮质灰质之间的关系。通过对年龄、性别、教育程度等协变量的调整,在多元回归模型中发现颗粒物(particulate matter,PM)2.5、PM10 与一氧化氮浓度和前额叶体积呈负相关关系。另外,他们还发现教育可以减少空气污染对前额叶的伤害。Hedges 等[36]用 18 278 名 UKB 参与者的数据研究了空气污染对海马体积的影响。除去年龄、性别等协变量影响后,PM2.5 浓度与左海马萎缩程度呈正相关。PM2.5 浓度每增加一个单位,左海马体积将萎缩 0.28%。
脑结构和功能的遗传机制尚不十分清楚。通过对 UKB 中的基因信息和脑成像数据集进行综合分析,可为揭示脑发育、衰老和疾病等方面的结构和功能变化提供遗传依据。Elliott 等[37]对 UKB 中 8 428 名受试者的 3 144 种结构和功能 IDPs 进行了全基因组关联研究,结果发现其中很多 IDPs 具有可遗传性。他们发现,在 148 个簇中,单核苷酸多态性与 IDPs 之间存在相关关系。这些相关因素包括:铁运输和存储基因与皮层下脑组织的磁化率有关,细胞外基质和表皮生长因子基因与白质的微结构和病变有关等。大脑皮层下的脑区对运动、意识、情绪和学习起着重要作用。Satizabal 等[38]对心脏与衰老的基因组流行病学研究(cohorts of heart and aging research in genomic epidemiology,CHARGE)、基于荟萃分析增强神经影像遗传学联盟(enhancing neuro imaging genetics through meta-analysis consortium,ENIGMA)和 UKB 中近 40 000 名受试者进行了全基因组关联分析,确定了伏隔核、杏仁核、脑干、尾状核、苍白球和丘脑体积相关的常见遗传变异,并确定了 48 个相关的位点。利用基因表达、甲基化和神经病理学数据对这些位点进行分析,发现 199 个位点可能与神经发育、突触信号传导、轴突传递、细胞凋亡、炎症/感染以及神经系统疾病易感性等有关。
2.6 认知能力、性别等其他因素
脑容量与智力的关系一直是认知神经科学研究的热点问题之一。Cox 等[39]基于 29 004 名年龄范围为 44~81 岁的 UKB 研究对象(7 201 名受试者同时具有脑影像和完整的四项认知测试数据),根据认知能力测试创建了一个一般智力因素 g,并估算了其与大脑总容量及其他局部结构指标之间的关系。脑容积与 g 之间的相关系数为 0.276。此外,他们还建立了一个包括整体灰质和白质的宏观和微观结构的认知能力评估模型,该模型对老年人群的解释力比中年人群更好。年龄和大脑的相互作用对 g 值有调节作用。关联最密切的脑区包括脑岛、额叶、颞前/上和内侧颞叶、后扣带和副扣带、枕外侧皮质、丘脑体积以及丘脑和联合纤维等白质微结构。
许多神经影像学研究并未考虑到性别差异的潜在影响。从结构和功能上全面理解性别差异,有助于解释行为层面的差异,并为与性别有关的精神病研究提供了重要线索。Ritchie 等[40]基于 UKB 中的 5 216 名受试者(2 750 名女性和 2 466 名男性受试者,年龄范围为 44~77 岁),研究了大脑结构和功能的性别差异。研究结果显示,男性受试者大脑皮层和次皮层体积较大,皮质表面积较大,白质扩散倾向明显;女性受试者大脑皮层较厚,白质纤维束复杂度较高。在两个认知测试中,男性的认知得分较高,部分是受性别结构差异的影响。功能连接显示男性在单峰感觉运动皮层中具有较强的连通性,女性在默认模式网络下具有较强的连通性。
3 讨论与总结
UKB 是一项大型前瞻性群体研究,旨在研究中老年人群体的健康状况。该研究包含了目前世界上最大的由健康人群组成的神经影像数据库,提供有关解剖和生理过程的结构和功能信息。在 UKB 中的所有 MRI 数据都是用同一种 MRI 扫描仪获取的,并使用相同的分析软件进行分析,从而避免了由于使用不同的扫描仪或分析技术而造成的差异。通过严格的数据采集和分析程序,UKB 中的大量同质数据可以为大规模神经影像学分析提供新的重要证据。迄今为止,已发表的成果主要集中于心血管疾病危险因素、调节性因素、脑年龄预测、常态、成功和病态脑老化、环境与遗传因素以及认知能力和性别等问题的横断研究。
目前已发表的脑影像学研究大多基于 UKB 提供的结构和功能的 IDPs,研究者无需对复杂的神经影像进行处理和分析,大幅度简化了分析处理过程。但是这些 IDPs 反映的是脑区的平均特征,依赖于前期的人工选择,特征灵敏度一般比较低,一定程度上减弱了 UKB 大数据带来的优势。从体素水平或皮质顶点分析神经影像,可以从细微尺度上反映大脑的变化。海量的神经影像数据与最新人工智能算法的结合,将进一步促进神经影像分析的发展。当前,研究者们已将最新 CNN 模型结合 UKB 中的原始神经影像数据应用到脑年龄预测领域,模型的误差相对于以往的经典模型降低了 50%。最新人工智能技术与神经影像大数据的结合[41-43],将会在神经影像分割、神经影像分类与神经影像预测等很多领域取得很好的效果。
因为 UKB 中包含数万名受试者的数据,所以在分析时必须考虑适当的数据选择策略。利用 UKB 对满足实验设计方案的全部数据进行分析,能得到具有较高统计性能的结果。但完整的脑影像数据集数据量有数十 TB,每 6~12 个月就会有 5 000~10 000 名新受试者的影像数据加入。对完整数据集进行分析会给数据传输和数据处理带来巨大压力。从结果可复现性和数据传输与计算量两方面考虑,本文认为数据选择策略包含三个决策点。首先,如果在影像分析中采用的是 IDPs,每个实验对象只包含数千个 IDPs 特征,可以采用满足实验设计的数据全集。其次,如果需要对神经影像直接进行处理,可以基于 UKB 中图像的不同发放,或基于采集时间顺序来构建子集,分段对数据进行分析。最后,如果是项目研究初期,进行可行性分析时,可以在前一决策点构建的子集中通过随机采样抽取一定数据来构建数据集。
拥有海量的受试者的 UKB 是研究影像数据和非影像测量之间关系的有力资源。但是,它在提升统计效率的同时,也会带来严重的混淆效应[44]。在研究因果关系时,混淆变量会同时影响假定的原因和假定的结果。如果不能正确处理混淆效应,则可能在配对的独立变量对之间产生虚假关联,最终结果并不能反映实际关系。对于混淆变量,通常需要在模型中进行修正估计,以消除受混淆因素的影响。判断哪些因素是混淆因素是一个复杂的问题。举例来说,年龄可能是某些研究中的一个混淆因素,但在其它一些研究中却是一个关键变量。另外一个例子是性别,性别与潜在的混淆因素(如头部尺寸)相关,并且还可能以复杂的方式影响目标变量,因此研究人员有时需要独立地对不同性别进行关联分析。此外,UKB 成像数据受扫描仪的位置、其他参数和配置等因素的影响,海量数据也意味着即使是很小的杂音也会导致统计问题。在提出科学问题并进行研究前,要从实际问题出发,考虑如何消除实验设计中的混淆效应影响。
虽然目前的 UKB 已经涉及了相当广泛的科学问题,但 UKB 的影像扩展项目严格说还是处于起步阶段。目前,主要研究还是针对认知能力正常的健康人群进行横断研究。随着时间的推移,影像队列中会出现越来越多的各种增龄性神经退行性疾病患者。届时,纵向随访研究可以帮助研究者研究疾病的发生与发展过程。举例来说,新冠肺炎当前正在全球流行,UKB 中患有新冠的受试者的后续随访数据就可以为研究新冠对脑结构、功能和认知的长期影响提供必要的依据。另外,由于 UKB 中包含海量的脑成像数据与高通量基因组学数据,因此,对 UKB 进行影像基因组学研究也是其一个重要研究发展方向。将脑神经影像与基因组影像进行整合,挖掘它们之间的关系,可以发现能够反映基因多态性或表达多态性的图像特征。在此基础上,可以深入了解脑表型特征、遗传变异和分子机制,以及它们对正常和紊乱大脑功能和行为的影响。随着 UKB 的影像扩展项目的逐渐成熟,大量新的科学研究也会不断开展。
利益冲突声明:本文全体作者均声明不存在利益冲突。