引用本文: 尚文茹, 柯立鑫, 王子怡, 王志飞, 杨克虎, 卢存存. 牛奶、咖啡摄入与非酒精性脂肪性肝病的因果关联:两样本孟德尔随机化研究. 中国循证医学杂志, 2023, 23(12): 1373-1377. doi: 10.7507/1672-2531.202307162 复制
非酒精性脂肪性肝病(non-alcoholic fatty liver disease,NAFLD)是一种与胰岛素抵抗和遗传密切相关的代谢性应激性肝损伤,疾病谱主要包括非酒精性脂肪肝、非酒精性脂肪性肝炎以及由它们进展所致的肝硬化和肝细胞癌[1-2]。此外,NAFLD还与多种代谢综合征、2型糖尿病和结直肠肿瘤等多种慢性非传染性疾病的高发有关[1-2]。最新的研究证据表明,全球NAFLD的患病率为25%[3],且仍在继续上升,造成了沉重的疾病和经济负担[3-4]。特别需要注意的是,NAFLD已成为我国目前的第一大慢性肝病和健康体检肝脏生物化学指标异常的首要原因[1]。因此,寻找有效的NAFLD防治措施已经显得非常迫切。
饮食与生活方式干预被认为对于NAFLD的防治有着重要价值[1]。牛奶和咖啡是人们日常生活中最常见的两种饮品,已经有大量的观察性流行病学研究调查了牛奶或咖啡摄入对NAFLD发生风险的影响,并已经有多篇基于此类研究的相关Meta分析发表[5-8]。例如,Yuzbashian等[5]研究发现,牛奶摄入与患NAFLD的风险降低有关。Chen等[7]研究表明,越多的咖啡摄入与更低的NAFLD发生风险有关。考虑到观察性研究易受混杂因素的影响[9-10],而基于此类研究的Meta分析非但不能消除混杂偏倚,甚至会因为方法学上的重大缺陷而导致更大的偏倚[11]。因此,有必要基于可靠的因果推断方法来明确牛奶及咖啡摄入对NAFLD发生风险的因果效应[12]。孟德尔随机化研究被认为是“天然的随机对照试验”[13],其主要原理是利用遗传变异在配子形成过程中随机分裂与组合的特点对研究人群进行模拟随机分配[14]。其以与暴露因素相关的遗传变异[例如,单核苷酸多态性(SNPs)]作为工具变量,评价暴露与结局事件之间的因果关联,不仅能够有效地避免传统观察性流行病学研究中存在的混杂因素的干扰,同时还能够排除可能发生的逆向因果问题[14-15]。近年来,这种方法已经受到国内外不同临床学科领域研究者的广泛关注[15-20]。本研究利用两样本孟德尔随机化方法[14,21]分析牛奶、咖啡摄入与NAFLD间的因果关联,以期为临床实践决策提供参考依据。
1 资料与方法
1.1 数据来源
本研究使用的所有数据来自于IEU OpenGWAS数据库。牛奶(“ukb-b-2966”)、咖啡(“ukb-b-5237”)摄入相关的遗传变异数据(SNPs)来源于英国生物样本库(UK BioBank),数据由Ben Elsworth在2018年发布,分别包含64 943和428 860名欧洲人群样本,均包含9 851 867个SNPs。结局事件NAFLD(“finn-b-NAFLD”)的全基因组关联研究数据于2021年发表,包含218 792名欧洲人群样本(病例组894人,对照组217 898人),共包含16 380 466个SNPs。
1.2 工具变量的筛选方法
为了调查牛奶、咖啡摄入与NAFLD间的因果关联,本研究中筛选作为工具变量的SNPs具体方法如下:① SNPs与牛奶、咖啡摄入之间应该高度相关,故将显著性阈值设置为P<5×10−8,由于牛奶摄入在此阈值下未能筛选出SNPs,故将其显著性阈值调整为P<5×10−6[21];② 通过设置分析参数r2=0.001,kb=10 000以保证不同SNPs之间独立,从而避免由于连锁不平衡导致的偏倚[15];③ 利用牛奶、咖啡摄入的全基因组关联研究数据集SNPs的β和SE值计算每个SNP的F统计量[15,22],即F=β2/SE2。基于F统计量评价弱工具变量,以F=10为界值,将F<10的弱工具变量SNPs从分析中排除。
1.3 统计分析
本研究利用逆方差加权法(inverse variance weighting,IVW)和MR-Egger法估计牛奶、咖啡摄入对NAFLD发生风险的因果效应。IVW法的特点是拟合时使用的权重为结局方差的倒数,回归时不考虑截距项,是两样本孟德尔随机化研究的标准估计方法[23],本研究中将其作为主要分析方法。当不满足多效性假定,且工具变量与结局的直接效应独立于工具变量与暴露因素的关联效应时,MR-Egger法可计算暴露对结局的因果效应[17],本研究将其作为次要分析方法。通过MR-PRESSO分析判断是否存在异常值,利用MR-Egger回归的截距项判断是否存在基因水平多效性[24],使用Cochran’s Q检验评估SNPs间的异质性。此外,采用“留一法”逐一剔除单个SNP进行敏感性分析以评价结果的稳健性。使用β值和比值比(odds ratio,OR)及其95%可信区间(confidence interval,CI)呈现牛奶或咖啡摄入与NAFLD发生风险之间的因果关联。基于R 4.2.3软件,在R Studio中调用“TwoSampleMR”(版本:0.5.7)[25]和“MRPRESSO”(版本:1.0)[26]包进行统计分析,并对主要分析结果进行可视化。设定P<0.05为差异有统计学意义。
2 结果
2.1 牛奶摄入与NAFLD的因果关联
牛奶摄入与NAFLD因果关联分析中共纳入20个有效的SNPs(表1),其F值范围为20.937~27.661,均为强工具变量。IVW法分析结果显示,牛奶摄入与NAFLD间不存在因果关联(表2和附件图1、图2)。MR-Egger法同样提示牛奶摄入与NAFLD间不存在因果关联(表2)。异质性分析IVW检验(Q=11.386,P=0.910)和MR-Egger检验(Q=10.745,P=0.905)均未发现明显的异质性。MR-PRESSO分析没有发现离群的SNPs,MR-Egger回归分析结果表明无水平多效性的证据(截距为0.029,P=0.434)。“留一法”分析结果表明,没有单个SNP能明显影响总体的效应估计。


2.2 咖啡摄入与NAFLD的因果关联
咖啡摄入与NAFLD因果关联分析中共纳入38个有效的SNPs(表3),其F值范围为30.101~646.735,均为强工具变量。IVW法分析结果显示,咖啡摄入与NAFLD间不存在因果关联(表2和附件图3、图4)。MR-Egger法同样提示咖啡摄入与NAFLD间不存在因果关联(表2)。异质性分析IVW检验(Q=46.015,P=0.147)和MR-Egger检验(Q=46.014,P=0.122)均未发现明显的异质性。MR-PRESSO分析没有发现离群的SNPs,MR-Egger回归分析结果表明无水平多效性的证据(截距为−0.001,P=0.975)。“留一法”分析结果表明,“rs1421085”和“rs1057868”对总体效应估计有一定的影响,但总体结果仍相对稳定。

3 讨论
既往证据[5,27]建议乳制品可以通过改善血液中不同脂质的组合(例如,降低甘油三酯与总胆固醇,提高高密度脂蛋白水平)改善肝脏脂肪堆积。此外,由蛋白代谢产生的活性肽能够增加抑胃肽和胰高血糖素样肽-1的活性,进而可能通过上调靶向mTOR途径的活性,促进胰岛细胞释放胰岛素,从而改善肝脏的脂质代谢。也有证据[28]提示咖啡摄入可以抑制NAFLD发生发展中的重要病理过程(例如,炎症、肝细胞死亡和纤维化)。此外,NAFLD的发生与久坐有关,而咖啡可能通过中枢兴奋作用促使人们增加体力活动[28]。近期发表的多篇基于观察性研究的Meta分析也发现牛奶、咖啡摄入与低NAFLD发生风险相关[5-8]。
然而,鉴于观察性流行病学研究结果可能会受到多种混杂因素的影响[10],为了明确牛奶与咖啡摄入与NAFLD间的因果关联,本研究基于公开可用的全基因组关联研究数据,分别选取与牛奶摄入和咖啡摄入高度相关的20个和38个SNPs作为工具变量,基于两样本孟德尔随机化方法分别调查了牛奶和咖啡摄入与NAFLD间的因果关联,不同分析方法的结果均一致表明牛奶或咖啡摄入对NAFLD的发生风险没有因果效应,这与既往的流行病学研究证据的结果相反。产生这种分歧的主要原因可能包括以下两点:首先,动物模型等临床前研究对象与人体本身存在着巨大差异,这常导致有统计学意义的临床前研究结果不能成功在人体上复现[29];其次,传统的观察性研究容易受到混杂和反向因果的影响,导致其无法得出可靠的结果,同时Meta分析并不能消除纳入的观察性研究的潜在混杂和偏倚,反而会夸大估计结果[10-11]。为了确保研究结果的可靠性,我们基于F统计量评价了是否存在弱工具变量,设定所有纳入分析的SNPs的F值均大于10,保证了不存在弱工具变量偏倚;此外基于MR-Egeer回归分析评价了SNPs多效性,发现分析结果不存在基因水平多效性偏倚。与此同时,异质性分析均未发现明显的异质性,MR-PRESSO分析没有发现离群值,“留一法”敏感性分析未发现明显影响总体效应估计的单个SNP,以上分析均表明我们的研究结果稳健和可靠。
与其他研究类似[15,30-31],本研究具有以下局限性:① 纳入人群均来自欧洲国家,人群的单一性限制了结果的外推性[5];② 研究使用的数据均为汇总结果[31],无法获取患者的年龄、性别、体力活动和疾病严重程度等重要信息进行进一步的分析;③ 研究结论仅基于统计学结果,无法进一步探讨暴露因素与NAFLD之间的生物学机制;④ 仅分别探讨了牛奶、咖啡摄入与NAFLD发生风险的因果关联,未能探讨同时摄入二者对NAFLD的潜在影响。
综上所述,本研究不支持牛奶或咖啡摄入与NAFLD的发生风险之间存在因果关联。
声明 所有作者均声明无利益冲突。
非酒精性脂肪性肝病(non-alcoholic fatty liver disease,NAFLD)是一种与胰岛素抵抗和遗传密切相关的代谢性应激性肝损伤,疾病谱主要包括非酒精性脂肪肝、非酒精性脂肪性肝炎以及由它们进展所致的肝硬化和肝细胞癌[1-2]。此外,NAFLD还与多种代谢综合征、2型糖尿病和结直肠肿瘤等多种慢性非传染性疾病的高发有关[1-2]。最新的研究证据表明,全球NAFLD的患病率为25%[3],且仍在继续上升,造成了沉重的疾病和经济负担[3-4]。特别需要注意的是,NAFLD已成为我国目前的第一大慢性肝病和健康体检肝脏生物化学指标异常的首要原因[1]。因此,寻找有效的NAFLD防治措施已经显得非常迫切。
饮食与生活方式干预被认为对于NAFLD的防治有着重要价值[1]。牛奶和咖啡是人们日常生活中最常见的两种饮品,已经有大量的观察性流行病学研究调查了牛奶或咖啡摄入对NAFLD发生风险的影响,并已经有多篇基于此类研究的相关Meta分析发表[5-8]。例如,Yuzbashian等[5]研究发现,牛奶摄入与患NAFLD的风险降低有关。Chen等[7]研究表明,越多的咖啡摄入与更低的NAFLD发生风险有关。考虑到观察性研究易受混杂因素的影响[9-10],而基于此类研究的Meta分析非但不能消除混杂偏倚,甚至会因为方法学上的重大缺陷而导致更大的偏倚[11]。因此,有必要基于可靠的因果推断方法来明确牛奶及咖啡摄入对NAFLD发生风险的因果效应[12]。孟德尔随机化研究被认为是“天然的随机对照试验”[13],其主要原理是利用遗传变异在配子形成过程中随机分裂与组合的特点对研究人群进行模拟随机分配[14]。其以与暴露因素相关的遗传变异[例如,单核苷酸多态性(SNPs)]作为工具变量,评价暴露与结局事件之间的因果关联,不仅能够有效地避免传统观察性流行病学研究中存在的混杂因素的干扰,同时还能够排除可能发生的逆向因果问题[14-15]。近年来,这种方法已经受到国内外不同临床学科领域研究者的广泛关注[15-20]。本研究利用两样本孟德尔随机化方法[14,21]分析牛奶、咖啡摄入与NAFLD间的因果关联,以期为临床实践决策提供参考依据。
1 资料与方法
1.1 数据来源
本研究使用的所有数据来自于IEU OpenGWAS数据库。牛奶(“ukb-b-2966”)、咖啡(“ukb-b-5237”)摄入相关的遗传变异数据(SNPs)来源于英国生物样本库(UK BioBank),数据由Ben Elsworth在2018年发布,分别包含64 943和428 860名欧洲人群样本,均包含9 851 867个SNPs。结局事件NAFLD(“finn-b-NAFLD”)的全基因组关联研究数据于2021年发表,包含218 792名欧洲人群样本(病例组894人,对照组217 898人),共包含16 380 466个SNPs。
1.2 工具变量的筛选方法
为了调查牛奶、咖啡摄入与NAFLD间的因果关联,本研究中筛选作为工具变量的SNPs具体方法如下:① SNPs与牛奶、咖啡摄入之间应该高度相关,故将显著性阈值设置为P<5×10−8,由于牛奶摄入在此阈值下未能筛选出SNPs,故将其显著性阈值调整为P<5×10−6[21];② 通过设置分析参数r2=0.001,kb=10 000以保证不同SNPs之间独立,从而避免由于连锁不平衡导致的偏倚[15];③ 利用牛奶、咖啡摄入的全基因组关联研究数据集SNPs的β和SE值计算每个SNP的F统计量[15,22],即F=β2/SE2。基于F统计量评价弱工具变量,以F=10为界值,将F<10的弱工具变量SNPs从分析中排除。
1.3 统计分析
本研究利用逆方差加权法(inverse variance weighting,IVW)和MR-Egger法估计牛奶、咖啡摄入对NAFLD发生风险的因果效应。IVW法的特点是拟合时使用的权重为结局方差的倒数,回归时不考虑截距项,是两样本孟德尔随机化研究的标准估计方法[23],本研究中将其作为主要分析方法。当不满足多效性假定,且工具变量与结局的直接效应独立于工具变量与暴露因素的关联效应时,MR-Egger法可计算暴露对结局的因果效应[17],本研究将其作为次要分析方法。通过MR-PRESSO分析判断是否存在异常值,利用MR-Egger回归的截距项判断是否存在基因水平多效性[24],使用Cochran’s Q检验评估SNPs间的异质性。此外,采用“留一法”逐一剔除单个SNP进行敏感性分析以评价结果的稳健性。使用β值和比值比(odds ratio,OR)及其95%可信区间(confidence interval,CI)呈现牛奶或咖啡摄入与NAFLD发生风险之间的因果关联。基于R 4.2.3软件,在R Studio中调用“TwoSampleMR”(版本:0.5.7)[25]和“MRPRESSO”(版本:1.0)[26]包进行统计分析,并对主要分析结果进行可视化。设定P<0.05为差异有统计学意义。
2 结果
2.1 牛奶摄入与NAFLD的因果关联
牛奶摄入与NAFLD因果关联分析中共纳入20个有效的SNPs(表1),其F值范围为20.937~27.661,均为强工具变量。IVW法分析结果显示,牛奶摄入与NAFLD间不存在因果关联(表2和附件图1、图2)。MR-Egger法同样提示牛奶摄入与NAFLD间不存在因果关联(表2)。异质性分析IVW检验(Q=11.386,P=0.910)和MR-Egger检验(Q=10.745,P=0.905)均未发现明显的异质性。MR-PRESSO分析没有发现离群的SNPs,MR-Egger回归分析结果表明无水平多效性的证据(截距为0.029,P=0.434)。“留一法”分析结果表明,没有单个SNP能明显影响总体的效应估计。


2.2 咖啡摄入与NAFLD的因果关联
咖啡摄入与NAFLD因果关联分析中共纳入38个有效的SNPs(表3),其F值范围为30.101~646.735,均为强工具变量。IVW法分析结果显示,咖啡摄入与NAFLD间不存在因果关联(表2和附件图3、图4)。MR-Egger法同样提示咖啡摄入与NAFLD间不存在因果关联(表2)。异质性分析IVW检验(Q=46.015,P=0.147)和MR-Egger检验(Q=46.014,P=0.122)均未发现明显的异质性。MR-PRESSO分析没有发现离群的SNPs,MR-Egger回归分析结果表明无水平多效性的证据(截距为−0.001,P=0.975)。“留一法”分析结果表明,“rs1421085”和“rs1057868”对总体效应估计有一定的影响,但总体结果仍相对稳定。

3 讨论
既往证据[5,27]建议乳制品可以通过改善血液中不同脂质的组合(例如,降低甘油三酯与总胆固醇,提高高密度脂蛋白水平)改善肝脏脂肪堆积。此外,由蛋白代谢产生的活性肽能够增加抑胃肽和胰高血糖素样肽-1的活性,进而可能通过上调靶向mTOR途径的活性,促进胰岛细胞释放胰岛素,从而改善肝脏的脂质代谢。也有证据[28]提示咖啡摄入可以抑制NAFLD发生发展中的重要病理过程(例如,炎症、肝细胞死亡和纤维化)。此外,NAFLD的发生与久坐有关,而咖啡可能通过中枢兴奋作用促使人们增加体力活动[28]。近期发表的多篇基于观察性研究的Meta分析也发现牛奶、咖啡摄入与低NAFLD发生风险相关[5-8]。
然而,鉴于观察性流行病学研究结果可能会受到多种混杂因素的影响[10],为了明确牛奶与咖啡摄入与NAFLD间的因果关联,本研究基于公开可用的全基因组关联研究数据,分别选取与牛奶摄入和咖啡摄入高度相关的20个和38个SNPs作为工具变量,基于两样本孟德尔随机化方法分别调查了牛奶和咖啡摄入与NAFLD间的因果关联,不同分析方法的结果均一致表明牛奶或咖啡摄入对NAFLD的发生风险没有因果效应,这与既往的流行病学研究证据的结果相反。产生这种分歧的主要原因可能包括以下两点:首先,动物模型等临床前研究对象与人体本身存在着巨大差异,这常导致有统计学意义的临床前研究结果不能成功在人体上复现[29];其次,传统的观察性研究容易受到混杂和反向因果的影响,导致其无法得出可靠的结果,同时Meta分析并不能消除纳入的观察性研究的潜在混杂和偏倚,反而会夸大估计结果[10-11]。为了确保研究结果的可靠性,我们基于F统计量评价了是否存在弱工具变量,设定所有纳入分析的SNPs的F值均大于10,保证了不存在弱工具变量偏倚;此外基于MR-Egeer回归分析评价了SNPs多效性,发现分析结果不存在基因水平多效性偏倚。与此同时,异质性分析均未发现明显的异质性,MR-PRESSO分析没有发现离群值,“留一法”敏感性分析未发现明显影响总体效应估计的单个SNP,以上分析均表明我们的研究结果稳健和可靠。
与其他研究类似[15,30-31],本研究具有以下局限性:① 纳入人群均来自欧洲国家,人群的单一性限制了结果的外推性[5];② 研究使用的数据均为汇总结果[31],无法获取患者的年龄、性别、体力活动和疾病严重程度等重要信息进行进一步的分析;③ 研究结论仅基于统计学结果,无法进一步探讨暴露因素与NAFLD之间的生物学机制;④ 仅分别探讨了牛奶、咖啡摄入与NAFLD发生风险的因果关联,未能探讨同时摄入二者对NAFLD的潜在影响。
综上所述,本研究不支持牛奶或咖啡摄入与NAFLD的发生风险之间存在因果关联。
声明 所有作者均声明无利益冲突。