结核分枝杆菌是人类结核病的病原体。通过测定结核分枝杆菌基因分型,能及时发现结核病的疫情流行特点,分析不同辖区患者之间的传播链条,从而及时制定有效的干预措施,为临床的诊断和治疗提供有力的依据。目前,结核分枝杆菌基因分型的几种技术在应用上各有利弊,该文就结核分枝杆菌的基因分型技术、群体遗传学和基因分型命名规则进行了综述。
引用本文: 周崇兴. 结核分枝杆菌基因分型及命名规则. 华西医学, 2022, 37(11): 1742-1748. doi: 10.7507/1002-0179.202110045 复制
结核病是由结核分枝杆菌(Mycobacterium tuberculosis,MTB)引起的一种传染病,近几年结核病再次成为严重危害世界公共卫生的传染病之一。基因分型也称为分子分型,是指利用遗传物质DNA作为考察对象的分型技术。同种而不同亚型的微生物,在致病性、耐药性等生物学特性上可能存在显著差异,如MTB中的M. bovis BCG和H37Rv两个菌株在毒力上就存在差异,这种差异可能在临床上很重要,比如影响到治疗方案或疫苗的选择等。MTB基因分型方法是监测结核病传播的有效途径,同时,对病原菌的更精细的分辨能够识别感染暴发案例之间的关联,这对公共卫生有重要价值。100年前,鉴别区分MTB菌株的方法依赖于表型特征,包括生长率比较、菌落形态观测、耐药谱或噬菌体分型等,这些方法由于缺乏分辨力而限制了它们的应用[1]。直至1970年代后期,随着分子生物学技术的发展和应用,一系列用于鉴别MTB菌株的方法应运而生,包括凝胶电泳、分子杂交、寡核苷酸分型、串联重复系列分型等。本文对迄今为止MTB的分子分型技术进行了简要的综述,希望有助于公共卫生及相关科技人员了解MTB流行的群体遗传学和技术概况,了解有关实验室技术的来源和应用意义。
1 MTB基因分型技术演变
MTB基因分型技术随着分子标记的开发而演变。分子标记也叫遗传标记,是基因组上一个或多个特定DNA片段,在群体上呈广泛多样性,因此能够用来做鉴别工具。1970年代后期,分子生物学的发展和相关技术的商业化,使得利用分子技术对MTB进行研究成为可能。一般而言,分型技术在科学上朝着更好的可重复性、可重现性和更高的分辨率发展,同时在技术上也朝着更节省人工、更经济的方向演进。更好的分子分型技术对研究MTB的群体遗传学、功能基因组学、分子诊断和流行病学溯源有着显而易见的帮助。MTB的分子标记开发,在早期主要是通过对M. tuberculosis H37Rv和M. bovis BCG这2个重要的菌株基因组比较研究得来,基于分子标记技术而开发的基因分型方法逐渐诞生,每种方法均有其优缺点。为了满足更加精准的结核病防控,今后或许还会有更多新的分型技术出现,操作方便、结果准确、可重复性高、价格低廉的分型方法将更有利于推广使用。以下就几种主要的MTB基因分型技术的演变进行阐述。
1.1 限制性内切酶多态性及凝胶电泳
1984 年,新西兰瓦拉塞维尔动物卫生实验室(国家兽医实验室)的 Collins 等[2]利用 17 个限制性内切酶对M. tuberculosis H37Ra、M. tuberculosis H37Rv、M. bovis BCG 及 2 个野生 MTB 菌株进行限制性内切酶分析,发现内切酶 BstEⅡ 能较好地区分不同菌株。使用脉冲场凝胶电泳技术取代普通电泳可以提高限制性内切酶分型方法的分辨率[3]。该技术可靠而实用,操作简单,无需放射性或特异的 DNA 探针,具有很高的重复性,但较小片段 DNA 的分辨率仍有待提高。
1.2 IS6110限制性片段长度多态性(restriction fragment length polymorphism,RFLP)分析
IS6110 在不同 MTB 菌株基因组中的数量和位置呈现出高度的多态性,使得基于 IS6110 的 RFLP 的分析成为一个良好的 MTB 分型方法,1991 年开始广泛用于流行病学研究[4]。IS6110-RFLP 曾被推荐为 MTB 流行病学研究的“金标准”[5]。该技术分辨率高,多态性高,特异性强。但其操作相对复杂,需要大量的 MTB 菌株,需要多种昂贵仪器,结果不易分析,对于低拷贝或无拷贝的菌株难以鉴定,不便于实验室比对。
1.3 间隔区寡核苷酸分型技术(Spoligotyping)
1996年,人们开始使用Spoligotyping对低拷贝的菌株进行鉴定。Spoligotyping是基于染色体上直接重复区位点的多态性分析。直接重复区位点数量在MTB群体中呈现多态性,在MTB中已经发现104个直接重复区位点,不同菌株在间隔区的序列不同,基于此对MTB进行鉴定[6]。该技术具有简便、低成本、高准确性的优势,只需要少量DNA,有良好的诱导性和可逆性,但分辨率不足,不能识别复合感染。
1.4 长序列多态性(large sequence polymorphism,LSP)分型技术
研究发现,大小不等的差异区域(regions of differences,RD)在 MTB 菌株中广泛存在[7]。1999 年,美国斯坦福大学和加拿大麦吉尔大学的研究人员利用全基因组基因芯片技术比较了 H37RV 和卡介苗 BCG 传代菌株之间的 RD,研究人员参照 Mahairas 的规则,以 RD+数字的格式命名了他们发现的若干个 RD,此后 RD 作为分子标记应用到了相关的研究中[7]。基于 RD 的 LSP 分析(RD-LSP)在 MTB 系统发生和遗传进化研究中逐渐发挥着重要的作用[8]。RD 检测操作便捷、快速,费用低廉,主要用于分枝杆菌的进化研究。
1.5 分枝杆菌散布重复单元(mycobcterial interspersed repetitive units,MIRU)-可变数目串联重复序列分型(variable number of tandem repeat typing,VNTR)
2001 年,Mazars 等[9]开发了一种基于 12 个 MIRU 基因座的 VNTR 分型方法(12-loci MIRU-VNTR),其分辨率与 IS6110-RFLP 相当。其他常用的 MIRU-VNTR 还有 15-loci MIRU-VNTR 和 24-loci MIRU-VNTR[10]。MIRU-VNTR 的检测手段常用聚合酶链反应产物进行凝胶电泳或者进行桑格测序分析。该技术是以聚合酶链反应为基础的分型方法,简单方便,易于推广使用,数字化的结果更易于分析和室间比对。缺点是分辨率相对不高,若通过增加位点提高分辨率,则需要增加更多的实验室工作量,仪器和试剂价格昂贵。
1.6 单核苷酸多态性(single nucleotide polymorphism,SNP)分型技术
在人类基因组计划完成的鼓舞之下,更多的分枝杆菌基因组得到测定。2001年后,研究人员利用测定的细菌基因组序列,通过比较研究,试图在基因组范围内寻找SNP作为分子标记,通过筛选出的不同SNP组合将MTB菌株分成了不同的亚型。2014年,伦敦卫生和热带医学学院的Coll等[11]分析了1601个世界各地的MTB基因组,鉴定了约9.2万个SNP,基于SNP的系统发育显示出与金标准RD分类体系相一致的结果;同时,提出了这些SNP中的62个用于区分已知的流行菌株,这种基于SNP的分子标记涵盖了所有主要的谱系,并可以得到更精细的分型结果,但需要测序,价格昂贵,较难在实验室推广。
1.7 全基因组测序(whole genome sequencing,WGS)
2005年和2006年,美国的454生命科学公司和英国的Solexa公司分别发布了其自有技术的下一代测序设备并成功用于微生物的WGS,标志着下一代测序技术的商业成熟[12]。下一代测序技术的商业化,使得低成本大规模地测定基因组成为可能。2014年,德国Borstel研究中心的Kohl等[13]开发了一个用于MTB菌株分型的多位点序列分型技术(multilocus sequence typing,MLST)方法,该方法包含了3041个编码基因,以期望得到一个基于技术的标准分型方案,方便实验室之间的结果交流和实时监测。评估发现,MLST方法的分辨率与WGS-SNP相当,该方案于2018年更新,将考察的核心基因数量缩减为2891个[14],优化WGS技术。WGS可以进行基因组之间的比对、耐药基因突变的分析、临床治疗研究的论证,从分子层面分析MTB的传染源、代系、区域之间传递的潜在规律等,该技术将会是群体易感性研究的终级解决手段。WGS技术在MTB的检测中敏感性高,在MTB疫情防控方面发挥着重要的作用[15],但是要构建起传播网络还是比较困难,这就需要进一步推进操作步骤和结果数据分析标准化,各权威机构也正在采取措施,实现WGS技术检测MTB国际标准化[16],从而有望更快、更好地诊断结核病,为结核病防控提供更准确的科学依据。
1.8 MLST
2013年,Pitondo-Silva等[17]总结前人的工作,从14个MTB 的H37Rv菌株中筛选了7个管家基因(gyrA、gyrB、katG、purA、recA、rpoB和sodA)作为MLST的分子标记方案;研究人员还将MLST与MIRU-VNTR、Spoligotyping进行了比较,在对44个MTB菌株研究后发现,这个MLST方案可重复性较好,易于分析,操作简便,但并没有表现出更好的分辨率,且费用较高。
2 MTB群体遗传学谱系
MTB在远古时期伴随着人类迁徙扩散,从非洲扩散到各大洲[18],在近代随着新大陆的发现和国际贸易的兴盛而二次扩散。随着分子进化理论的发展和有关技术的发明,我们可以从细菌的基因组上重构整个MTB的流行史。人类社会的发展与MTB主要致病特征的形成密切相关,MTB在与人类共同进化的过程中,为适应生存环境,形成了自己独特的致病特征,致病性和传播能力更为增强。MTB作为人类迄今形影不离的“共生伙伴”,其流行史,就是人类迁徙交流的历史,也是人类和疾病斗争的历史。
1995年,荷兰国家公共卫生和环境保护研究所的van Soolingen等[19]对69个东亚来源MTB菌株(49个来源于北京,20个来源于蒙古)使用IS6110-RFLP进行分型,发现其中52个菌株具有相似的条带类型。由于这些菌株大部分来自于北京,故将其命名为北京家族(Beijing family)。同时,使用Spoligotyping分析发现北京家族菌株具有一致的间隔区寡核苷酸分型(Spoligotype)(间隔区1-34缺失),因此也常用Spoligotyping来鉴定北京家族菌株[20],当最后9个间隔区中的一个或多个缺失时则被称为类北京型(Beijing-like)[21]。根据北京基因型基因组NTF区域中的IS6110,北京家族又被分为古老型和现代型,其中NTF区域中IS6110的缺失叫做古老北京型。在基因型上,北京菌株被认为是一个遗传相似度极高的群体,但近期大量分型或测序数据提示该群体内部存在一定的遗传差异性[22]。目前为止,北京菌株的遗传结构仍缺乏系统的研究,北京菌株的起源问题也存在争议。美国贝勒医学院的Sreevatsan等[23]收集了来源于40个国家的842个分枝杆菌菌株数据,通过分析26个结构基因(主要是耐药相关)的序列,发现了分别位于2个基因上的2个高频非同义突变SNP,分别位于gyrA95和katG465位密码子,并根据其将MTB划分为3个主要的基因群,分别命名为Group 1、Group 2、Group 3,其中Group 3基因群与散发而不是成簇的病例观察结果表明,病原体正在向传播能力或毒力降低的状态发展,主要的生物学特性也有差异。英国伦敦健康保护局的Baker等[24]使用MLST对225个来源于英国(英格兰和威尔士)的临床分离株的7个管家基因(rpoB、katG、oxyR、ahpC、pncA、rpsL、和gyrA)进行测序分析,鉴定出36个同义突变SNP,并用其将MTB划分为4个主要谱系,分别命名为Lineage Ⅰ、Lineage Ⅱ、Lineage Ⅲ、Lineage Ⅳ。美国西雅图系统生物学研究所的Gagneux等[25]使用RD-LSP分析了80个国家来源的875个MTB分离株,根据基因组杂交的结果差异,鉴定了19个系统发生相关的种系特异性的RD标记,并用其将MTB划分为6个主要谱系,根据其主要来源分别命名为印度洋、东亚、东非印度、欧美、西非1、西非2。美国国立卫生院过敏与传染病研究所的Gutacker等[26]通过比较M. bovis AF2122/97、M. tuberculosis CDC1551、M. tuberculosis 210和M. tuberculosis H37Rv菌株的全基因组序列,选择基因组范围内,将来源于美国和欧洲4个地区的5069个菌株数据划分成了9个主要的基因型簇,分别为Cluster Ⅰ、Cluster Ⅱ、Cluster Ⅱ.A、Cluster Ⅲ、Cluster Ⅳ、Cluster Ⅴ、Cluster Ⅵ、Cluster Ⅶ、Cluster Ⅷ。美国新泽西医学和牙科大学的Filliol等[27]使用了与Gutacker等[26]相似的方法,根据159个同义突变SNP将来源于19个国家和地区的219个菌株划分为10个SNP簇组(SNP cluster group,SCG),分别为SCG 1、SCG 2、SCG 3a、SCG 3b、SCG 3c、SCG 4、SCG 5、SCG 6a、SCG 6b、SCG 7。Gagneux等[28]对MTB系统发育研究进行综述,在RD-LSP的基础上,将世界范围内的MTB归为6个系,并以“Lineage+数字”的编号命名。埃塞俄比亚阿默尔汉森研究所的Firdessa等[29]对来源于埃塞俄比亚的964个菌株分型研究,发现其中36个菌株有着特殊的Spoligotype,并且不属于已知的6个系(Lineage 1~6),于是选取其中的4株进行WGS及SNP系统发育研究,发现并定义了一个新的谱系,命名为Lineage 7(Ethiopia)。至此,全球范围内流行的、已经分离到的MTB菌株,几乎都可以划分到上述7个单系类群(Monophyletic group)中的1个[30]。Coll等[11]分析了1601个世界各地的MTB菌株的全基因组数据,确定了一组可以识别所有7个Lineage的SNP(共62个),并且可以根据这组62个SNP将MTB菌株细分成55个亚系。MTB 7个主要谱系相关的研究对比见表1[28, 30-33]。

MTB群体遗传学研究将菌株规范划分为7个人类适应性谱系[34],通过WGS-SNP可进行精准分型与鉴定。分布最广的类群是谱系2(主要存在于东亚)和谱系4(主要出现在欧美、亚洲、非洲人群),谱系1和谱系3主要在东非、中亚、南亚和东南亚,谱系5~7存在于非洲的特定区域。这些研究解决了及时有效获取样本及对应信息的难题,同时可以利用传统的流行病学手段对流行病学调查中获得的大量数据,配合环境等其他相关因素进行分析界定。随着基因组学研究手段与传统公共卫生流行病学研究的进一步结合,群体遗传学能够精准判断结核病的流行轨迹、人群易感性等,对感染者的发病进程以及临床治疗的解决方案提供准确可靠的科学依据。
3 MTB分型命名规则
亚型的命名是指为特定的菌株亚型赋名,目的是方便交流和数据交换利用。命名的方式可以通过系统命名法和人工赋名。分子分型技术利用遗传标记的拷贝数、序列碱基变化等可以设计出系统命名的规则。但如同国际纯粹与应用化学联合会的系统命名法一样,系统命名法所得到的名称一般冗长且符号难被人类所读写识别,因此,除了系统命名之外,很多场合仍然需要使用人工赋予通俗的名称,以指代特定的细菌亚型。基于不同的遗传标记有着不同的命名方式,其人工赋名也有对应的机构在维护。以下是常见的MTB分子分型命名法。
3.1 RD+编号命名
1996年,Mahairas等[35]将首次发现的3个RD分别命名为RD1、RD2和RD3。后续的研究便沿用了“RD+编号”的命名规则,将所发现的 RD 按照发现的时间先后以及该区域在M. tuberculosis H37Rv基因组上的相对位置进行编号命名,例如RD105、RD239等。
3.2 SIT+数字编号命名
2001年,荷兰国家健康与环境卫生研究所连同法国巴斯德研究所等单位,为了解决Spoligotyping命名混乱的问题,提出了系统命名法,使用十进制、二进制等进行标准化描述[36-37]。“0”和“1”代表43个间隔区的有和无,十进制方案由二进制方案每连续3个间隔区的值换算而来。每个特定的系统命名通过Spoligotyping国际型(Spoligo-International-Type,SIT)人工赋予一个简略的数字编号,如表2。

3.3 MIRU-VNTR命名
2008年,Allix-Béguec等[10]整理了24位点(MtbC15-9)的MIRU-VNTR分型数据库,并将其与Spoligotyping、RD-LSP等分型结果进行了关联对照。该方案的结果命名,以loci编号为次序列出每个基因座的重复单元数(整数),以此得到的一个数列作为系统命名。为了便于分型结果的交流,Weniger等[38]引入了扩展命名MtbC15-9,是基于判别子集的15个基因座(MtbC15)和9个辅助基因座(MtbC9)的组合,将数字编码分配给每一个24-loci MIRU-VNTR型,见表3。

3.4 核心基因组MLST(core genome MLST,cgMLST)命名
2014年7月,Kohl等[13]开发了基于cgMLST的方案,目前该分型方案所考察的基因数量为2891个,以方便实验室间基于WGS技术流行病学研究结果的交流与实时监测。该方案的命名法与传统MLST相似,每个基因的序列将得到一个序列编号,所有基因序列编号的组合即得到菌株的分型(cgMLST CT)[14]。目前MLST方案都没有系统命名方案,只通过人工赋名—一个阿拉伯数字代号。
3.5 WGS-SNP
尽管 WGS-SNP 有着最高的分辨率,但目前该方法所得的分型结果没有统一的命名方案。WGS-SNP 命名方法通常使用 Coll 等[11]的 62 SNP 方案将分离株划分到7个 Lineage 中,或者得到更精细的亚谱系。由于 WGS 可以获得整个基因组的信息,该法也可以使用电脑模拟实验(in silico)的方式采用传统的分子标记进行分型,如 in silico spoligotyping 等。
4 MTB分型数据库/工具
为提供全局统一的分子分型赋名,科研人员发布了多个MTB分子分型数据库及在线工具,这些数据库的主要目的是收集并命名已经发现的细菌亚型,同时提供in silico的分型和查询服务,其中大部分仍在更新维护。我们将其整理如下(表4)[13, 27, 33, 37, 39-52]。

5 小结与展望
MTB培养鉴定技术已沿用100多年,而分子分型技术则只有30多年。基因分型是结核病分子流行病学研究的重要内容,在结核病近期传播追踪、暴发流行调查、快速菌种鉴定与耐药/耐多药检测,以及实验室污染鉴定、内源性复染和外源性再感染的区分等方面具有重大意义,在研究结核病的病原演变,以及确定传染源、揭示疾病传播机制方面能够发挥关键的作用。
基因组测定是分子分型的终极技术,也是病原体监测的主流趋势。各个时期发明的MTB分子分型技术在原理上的差异造成了其术语体系的混乱,这种混乱继而造成不同监测工作所得结果的理解困难[53]。在此,我们从系统发生和分子遗传学的视角,对主要的分子分型技术所得结果之间的相互关系进行了回顾,厘清了有关术语名词的关系、不同技术在遗传学上的分辨力,以及在具体工作中的适用性。
未来的MTB分型技术,应当是以基因组测定为主,但其系统命名的方式仍需要研究和开发。基于基因组测定的分型,每个分型技术都有其优缺点,多种方法联合应用具有重复性好、分辨率高、适合于自动化分析、结果数字化、便于不同实验室间进行比对等优点。在实际工作中,应根据不同研究目的选择合适的技术,同时需要提供兼容旧分型方案的结果,以便历史数据的核对利用。
利益冲突:所有作者声明无利益冲突。
结核病是由结核分枝杆菌(Mycobacterium tuberculosis,MTB)引起的一种传染病,近几年结核病再次成为严重危害世界公共卫生的传染病之一。基因分型也称为分子分型,是指利用遗传物质DNA作为考察对象的分型技术。同种而不同亚型的微生物,在致病性、耐药性等生物学特性上可能存在显著差异,如MTB中的M. bovis BCG和H37Rv两个菌株在毒力上就存在差异,这种差异可能在临床上很重要,比如影响到治疗方案或疫苗的选择等。MTB基因分型方法是监测结核病传播的有效途径,同时,对病原菌的更精细的分辨能够识别感染暴发案例之间的关联,这对公共卫生有重要价值。100年前,鉴别区分MTB菌株的方法依赖于表型特征,包括生长率比较、菌落形态观测、耐药谱或噬菌体分型等,这些方法由于缺乏分辨力而限制了它们的应用[1]。直至1970年代后期,随着分子生物学技术的发展和应用,一系列用于鉴别MTB菌株的方法应运而生,包括凝胶电泳、分子杂交、寡核苷酸分型、串联重复系列分型等。本文对迄今为止MTB的分子分型技术进行了简要的综述,希望有助于公共卫生及相关科技人员了解MTB流行的群体遗传学和技术概况,了解有关实验室技术的来源和应用意义。
1 MTB基因分型技术演变
MTB基因分型技术随着分子标记的开发而演变。分子标记也叫遗传标记,是基因组上一个或多个特定DNA片段,在群体上呈广泛多样性,因此能够用来做鉴别工具。1970年代后期,分子生物学的发展和相关技术的商业化,使得利用分子技术对MTB进行研究成为可能。一般而言,分型技术在科学上朝着更好的可重复性、可重现性和更高的分辨率发展,同时在技术上也朝着更节省人工、更经济的方向演进。更好的分子分型技术对研究MTB的群体遗传学、功能基因组学、分子诊断和流行病学溯源有着显而易见的帮助。MTB的分子标记开发,在早期主要是通过对M. tuberculosis H37Rv和M. bovis BCG这2个重要的菌株基因组比较研究得来,基于分子标记技术而开发的基因分型方法逐渐诞生,每种方法均有其优缺点。为了满足更加精准的结核病防控,今后或许还会有更多新的分型技术出现,操作方便、结果准确、可重复性高、价格低廉的分型方法将更有利于推广使用。以下就几种主要的MTB基因分型技术的演变进行阐述。
1.1 限制性内切酶多态性及凝胶电泳
1984 年,新西兰瓦拉塞维尔动物卫生实验室(国家兽医实验室)的 Collins 等[2]利用 17 个限制性内切酶对M. tuberculosis H37Ra、M. tuberculosis H37Rv、M. bovis BCG 及 2 个野生 MTB 菌株进行限制性内切酶分析,发现内切酶 BstEⅡ 能较好地区分不同菌株。使用脉冲场凝胶电泳技术取代普通电泳可以提高限制性内切酶分型方法的分辨率[3]。该技术可靠而实用,操作简单,无需放射性或特异的 DNA 探针,具有很高的重复性,但较小片段 DNA 的分辨率仍有待提高。
1.2 IS6110限制性片段长度多态性(restriction fragment length polymorphism,RFLP)分析
IS6110 在不同 MTB 菌株基因组中的数量和位置呈现出高度的多态性,使得基于 IS6110 的 RFLP 的分析成为一个良好的 MTB 分型方法,1991 年开始广泛用于流行病学研究[4]。IS6110-RFLP 曾被推荐为 MTB 流行病学研究的“金标准”[5]。该技术分辨率高,多态性高,特异性强。但其操作相对复杂,需要大量的 MTB 菌株,需要多种昂贵仪器,结果不易分析,对于低拷贝或无拷贝的菌株难以鉴定,不便于实验室比对。
1.3 间隔区寡核苷酸分型技术(Spoligotyping)
1996年,人们开始使用Spoligotyping对低拷贝的菌株进行鉴定。Spoligotyping是基于染色体上直接重复区位点的多态性分析。直接重复区位点数量在MTB群体中呈现多态性,在MTB中已经发现104个直接重复区位点,不同菌株在间隔区的序列不同,基于此对MTB进行鉴定[6]。该技术具有简便、低成本、高准确性的优势,只需要少量DNA,有良好的诱导性和可逆性,但分辨率不足,不能识别复合感染。
1.4 长序列多态性(large sequence polymorphism,LSP)分型技术
研究发现,大小不等的差异区域(regions of differences,RD)在 MTB 菌株中广泛存在[7]。1999 年,美国斯坦福大学和加拿大麦吉尔大学的研究人员利用全基因组基因芯片技术比较了 H37RV 和卡介苗 BCG 传代菌株之间的 RD,研究人员参照 Mahairas 的规则,以 RD+数字的格式命名了他们发现的若干个 RD,此后 RD 作为分子标记应用到了相关的研究中[7]。基于 RD 的 LSP 分析(RD-LSP)在 MTB 系统发生和遗传进化研究中逐渐发挥着重要的作用[8]。RD 检测操作便捷、快速,费用低廉,主要用于分枝杆菌的进化研究。
1.5 分枝杆菌散布重复单元(mycobcterial interspersed repetitive units,MIRU)-可变数目串联重复序列分型(variable number of tandem repeat typing,VNTR)
2001 年,Mazars 等[9]开发了一种基于 12 个 MIRU 基因座的 VNTR 分型方法(12-loci MIRU-VNTR),其分辨率与 IS6110-RFLP 相当。其他常用的 MIRU-VNTR 还有 15-loci MIRU-VNTR 和 24-loci MIRU-VNTR[10]。MIRU-VNTR 的检测手段常用聚合酶链反应产物进行凝胶电泳或者进行桑格测序分析。该技术是以聚合酶链反应为基础的分型方法,简单方便,易于推广使用,数字化的结果更易于分析和室间比对。缺点是分辨率相对不高,若通过增加位点提高分辨率,则需要增加更多的实验室工作量,仪器和试剂价格昂贵。
1.6 单核苷酸多态性(single nucleotide polymorphism,SNP)分型技术
在人类基因组计划完成的鼓舞之下,更多的分枝杆菌基因组得到测定。2001年后,研究人员利用测定的细菌基因组序列,通过比较研究,试图在基因组范围内寻找SNP作为分子标记,通过筛选出的不同SNP组合将MTB菌株分成了不同的亚型。2014年,伦敦卫生和热带医学学院的Coll等[11]分析了1601个世界各地的MTB基因组,鉴定了约9.2万个SNP,基于SNP的系统发育显示出与金标准RD分类体系相一致的结果;同时,提出了这些SNP中的62个用于区分已知的流行菌株,这种基于SNP的分子标记涵盖了所有主要的谱系,并可以得到更精细的分型结果,但需要测序,价格昂贵,较难在实验室推广。
1.7 全基因组测序(whole genome sequencing,WGS)
2005年和2006年,美国的454生命科学公司和英国的Solexa公司分别发布了其自有技术的下一代测序设备并成功用于微生物的WGS,标志着下一代测序技术的商业成熟[12]。下一代测序技术的商业化,使得低成本大规模地测定基因组成为可能。2014年,德国Borstel研究中心的Kohl等[13]开发了一个用于MTB菌株分型的多位点序列分型技术(multilocus sequence typing,MLST)方法,该方法包含了3041个编码基因,以期望得到一个基于技术的标准分型方案,方便实验室之间的结果交流和实时监测。评估发现,MLST方法的分辨率与WGS-SNP相当,该方案于2018年更新,将考察的核心基因数量缩减为2891个[14],优化WGS技术。WGS可以进行基因组之间的比对、耐药基因突变的分析、临床治疗研究的论证,从分子层面分析MTB的传染源、代系、区域之间传递的潜在规律等,该技术将会是群体易感性研究的终级解决手段。WGS技术在MTB的检测中敏感性高,在MTB疫情防控方面发挥着重要的作用[15],但是要构建起传播网络还是比较困难,这就需要进一步推进操作步骤和结果数据分析标准化,各权威机构也正在采取措施,实现WGS技术检测MTB国际标准化[16],从而有望更快、更好地诊断结核病,为结核病防控提供更准确的科学依据。
1.8 MLST
2013年,Pitondo-Silva等[17]总结前人的工作,从14个MTB 的H37Rv菌株中筛选了7个管家基因(gyrA、gyrB、katG、purA、recA、rpoB和sodA)作为MLST的分子标记方案;研究人员还将MLST与MIRU-VNTR、Spoligotyping进行了比较,在对44个MTB菌株研究后发现,这个MLST方案可重复性较好,易于分析,操作简便,但并没有表现出更好的分辨率,且费用较高。
2 MTB群体遗传学谱系
MTB在远古时期伴随着人类迁徙扩散,从非洲扩散到各大洲[18],在近代随着新大陆的发现和国际贸易的兴盛而二次扩散。随着分子进化理论的发展和有关技术的发明,我们可以从细菌的基因组上重构整个MTB的流行史。人类社会的发展与MTB主要致病特征的形成密切相关,MTB在与人类共同进化的过程中,为适应生存环境,形成了自己独特的致病特征,致病性和传播能力更为增强。MTB作为人类迄今形影不离的“共生伙伴”,其流行史,就是人类迁徙交流的历史,也是人类和疾病斗争的历史。
1995年,荷兰国家公共卫生和环境保护研究所的van Soolingen等[19]对69个东亚来源MTB菌株(49个来源于北京,20个来源于蒙古)使用IS6110-RFLP进行分型,发现其中52个菌株具有相似的条带类型。由于这些菌株大部分来自于北京,故将其命名为北京家族(Beijing family)。同时,使用Spoligotyping分析发现北京家族菌株具有一致的间隔区寡核苷酸分型(Spoligotype)(间隔区1-34缺失),因此也常用Spoligotyping来鉴定北京家族菌株[20],当最后9个间隔区中的一个或多个缺失时则被称为类北京型(Beijing-like)[21]。根据北京基因型基因组NTF区域中的IS6110,北京家族又被分为古老型和现代型,其中NTF区域中IS6110的缺失叫做古老北京型。在基因型上,北京菌株被认为是一个遗传相似度极高的群体,但近期大量分型或测序数据提示该群体内部存在一定的遗传差异性[22]。目前为止,北京菌株的遗传结构仍缺乏系统的研究,北京菌株的起源问题也存在争议。美国贝勒医学院的Sreevatsan等[23]收集了来源于40个国家的842个分枝杆菌菌株数据,通过分析26个结构基因(主要是耐药相关)的序列,发现了分别位于2个基因上的2个高频非同义突变SNP,分别位于gyrA95和katG465位密码子,并根据其将MTB划分为3个主要的基因群,分别命名为Group 1、Group 2、Group 3,其中Group 3基因群与散发而不是成簇的病例观察结果表明,病原体正在向传播能力或毒力降低的状态发展,主要的生物学特性也有差异。英国伦敦健康保护局的Baker等[24]使用MLST对225个来源于英国(英格兰和威尔士)的临床分离株的7个管家基因(rpoB、katG、oxyR、ahpC、pncA、rpsL、和gyrA)进行测序分析,鉴定出36个同义突变SNP,并用其将MTB划分为4个主要谱系,分别命名为Lineage Ⅰ、Lineage Ⅱ、Lineage Ⅲ、Lineage Ⅳ。美国西雅图系统生物学研究所的Gagneux等[25]使用RD-LSP分析了80个国家来源的875个MTB分离株,根据基因组杂交的结果差异,鉴定了19个系统发生相关的种系特异性的RD标记,并用其将MTB划分为6个主要谱系,根据其主要来源分别命名为印度洋、东亚、东非印度、欧美、西非1、西非2。美国国立卫生院过敏与传染病研究所的Gutacker等[26]通过比较M. bovis AF2122/97、M. tuberculosis CDC1551、M. tuberculosis 210和M. tuberculosis H37Rv菌株的全基因组序列,选择基因组范围内,将来源于美国和欧洲4个地区的5069个菌株数据划分成了9个主要的基因型簇,分别为Cluster Ⅰ、Cluster Ⅱ、Cluster Ⅱ.A、Cluster Ⅲ、Cluster Ⅳ、Cluster Ⅴ、Cluster Ⅵ、Cluster Ⅶ、Cluster Ⅷ。美国新泽西医学和牙科大学的Filliol等[27]使用了与Gutacker等[26]相似的方法,根据159个同义突变SNP将来源于19个国家和地区的219个菌株划分为10个SNP簇组(SNP cluster group,SCG),分别为SCG 1、SCG 2、SCG 3a、SCG 3b、SCG 3c、SCG 4、SCG 5、SCG 6a、SCG 6b、SCG 7。Gagneux等[28]对MTB系统发育研究进行综述,在RD-LSP的基础上,将世界范围内的MTB归为6个系,并以“Lineage+数字”的编号命名。埃塞俄比亚阿默尔汉森研究所的Firdessa等[29]对来源于埃塞俄比亚的964个菌株分型研究,发现其中36个菌株有着特殊的Spoligotype,并且不属于已知的6个系(Lineage 1~6),于是选取其中的4株进行WGS及SNP系统发育研究,发现并定义了一个新的谱系,命名为Lineage 7(Ethiopia)。至此,全球范围内流行的、已经分离到的MTB菌株,几乎都可以划分到上述7个单系类群(Monophyletic group)中的1个[30]。Coll等[11]分析了1601个世界各地的MTB菌株的全基因组数据,确定了一组可以识别所有7个Lineage的SNP(共62个),并且可以根据这组62个SNP将MTB菌株细分成55个亚系。MTB 7个主要谱系相关的研究对比见表1[28, 30-33]。

MTB群体遗传学研究将菌株规范划分为7个人类适应性谱系[34],通过WGS-SNP可进行精准分型与鉴定。分布最广的类群是谱系2(主要存在于东亚)和谱系4(主要出现在欧美、亚洲、非洲人群),谱系1和谱系3主要在东非、中亚、南亚和东南亚,谱系5~7存在于非洲的特定区域。这些研究解决了及时有效获取样本及对应信息的难题,同时可以利用传统的流行病学手段对流行病学调查中获得的大量数据,配合环境等其他相关因素进行分析界定。随着基因组学研究手段与传统公共卫生流行病学研究的进一步结合,群体遗传学能够精准判断结核病的流行轨迹、人群易感性等,对感染者的发病进程以及临床治疗的解决方案提供准确可靠的科学依据。
3 MTB分型命名规则
亚型的命名是指为特定的菌株亚型赋名,目的是方便交流和数据交换利用。命名的方式可以通过系统命名法和人工赋名。分子分型技术利用遗传标记的拷贝数、序列碱基变化等可以设计出系统命名的规则。但如同国际纯粹与应用化学联合会的系统命名法一样,系统命名法所得到的名称一般冗长且符号难被人类所读写识别,因此,除了系统命名之外,很多场合仍然需要使用人工赋予通俗的名称,以指代特定的细菌亚型。基于不同的遗传标记有着不同的命名方式,其人工赋名也有对应的机构在维护。以下是常见的MTB分子分型命名法。
3.1 RD+编号命名
1996年,Mahairas等[35]将首次发现的3个RD分别命名为RD1、RD2和RD3。后续的研究便沿用了“RD+编号”的命名规则,将所发现的 RD 按照发现的时间先后以及该区域在M. tuberculosis H37Rv基因组上的相对位置进行编号命名,例如RD105、RD239等。
3.2 SIT+数字编号命名
2001年,荷兰国家健康与环境卫生研究所连同法国巴斯德研究所等单位,为了解决Spoligotyping命名混乱的问题,提出了系统命名法,使用十进制、二进制等进行标准化描述[36-37]。“0”和“1”代表43个间隔区的有和无,十进制方案由二进制方案每连续3个间隔区的值换算而来。每个特定的系统命名通过Spoligotyping国际型(Spoligo-International-Type,SIT)人工赋予一个简略的数字编号,如表2。

3.3 MIRU-VNTR命名
2008年,Allix-Béguec等[10]整理了24位点(MtbC15-9)的MIRU-VNTR分型数据库,并将其与Spoligotyping、RD-LSP等分型结果进行了关联对照。该方案的结果命名,以loci编号为次序列出每个基因座的重复单元数(整数),以此得到的一个数列作为系统命名。为了便于分型结果的交流,Weniger等[38]引入了扩展命名MtbC15-9,是基于判别子集的15个基因座(MtbC15)和9个辅助基因座(MtbC9)的组合,将数字编码分配给每一个24-loci MIRU-VNTR型,见表3。

3.4 核心基因组MLST(core genome MLST,cgMLST)命名
2014年7月,Kohl等[13]开发了基于cgMLST的方案,目前该分型方案所考察的基因数量为2891个,以方便实验室间基于WGS技术流行病学研究结果的交流与实时监测。该方案的命名法与传统MLST相似,每个基因的序列将得到一个序列编号,所有基因序列编号的组合即得到菌株的分型(cgMLST CT)[14]。目前MLST方案都没有系统命名方案,只通过人工赋名—一个阿拉伯数字代号。
3.5 WGS-SNP
尽管 WGS-SNP 有着最高的分辨率,但目前该方法所得的分型结果没有统一的命名方案。WGS-SNP 命名方法通常使用 Coll 等[11]的 62 SNP 方案将分离株划分到7个 Lineage 中,或者得到更精细的亚谱系。由于 WGS 可以获得整个基因组的信息,该法也可以使用电脑模拟实验(in silico)的方式采用传统的分子标记进行分型,如 in silico spoligotyping 等。
4 MTB分型数据库/工具
为提供全局统一的分子分型赋名,科研人员发布了多个MTB分子分型数据库及在线工具,这些数据库的主要目的是收集并命名已经发现的细菌亚型,同时提供in silico的分型和查询服务,其中大部分仍在更新维护。我们将其整理如下(表4)[13, 27, 33, 37, 39-52]。

5 小结与展望
MTB培养鉴定技术已沿用100多年,而分子分型技术则只有30多年。基因分型是结核病分子流行病学研究的重要内容,在结核病近期传播追踪、暴发流行调查、快速菌种鉴定与耐药/耐多药检测,以及实验室污染鉴定、内源性复染和外源性再感染的区分等方面具有重大意义,在研究结核病的病原演变,以及确定传染源、揭示疾病传播机制方面能够发挥关键的作用。
基因组测定是分子分型的终极技术,也是病原体监测的主流趋势。各个时期发明的MTB分子分型技术在原理上的差异造成了其术语体系的混乱,这种混乱继而造成不同监测工作所得结果的理解困难[53]。在此,我们从系统发生和分子遗传学的视角,对主要的分子分型技术所得结果之间的相互关系进行了回顾,厘清了有关术语名词的关系、不同技术在遗传学上的分辨力,以及在具体工作中的适用性。
未来的MTB分型技术,应当是以基因组测定为主,但其系统命名的方式仍需要研究和开发。基于基因组测定的分型,每个分型技术都有其优缺点,多种方法联合应用具有重复性好、分辨率高、适合于自动化分析、结果数字化、便于不同实验室间进行比对等优点。在实际工作中,应根据不同研究目的选择合适的技术,同时需要提供兼容旧分型方案的结果,以便历史数据的核对利用。
利益冲突:所有作者声明无利益冲突。