引用本文: 张光文, 成晨, 王世明. 单细胞转录组测序及它在乳腺癌肿瘤微环境中的研究进展. 中国普外基础与临床杂志, 2024, 31(4): 495-501. doi: 10.7507/1007-9424.202311050 复制
2020年乳腺癌已成为全球癌症发病谱和女性死亡谱首位,严重威胁女性健康[1]。乳腺癌的发生和发展与肿瘤微环境(tumor microenvironment,TME)密切相关。因此,进一步了解乳腺癌的发病机制、异质性以及它与TME交互作用对乳腺癌诊断及精准治疗至关重要。目前,针对乳腺癌发病机制的研究方法多为传统批量测序,该方法主要提供肿瘤细胞群体基因表达的平均数量,不能捕捉肿瘤细胞群体中存在的异质性,也无法获得TME的具体情况。近年来兴起的单细胞RNA测序(single-cell RNA sequencing,scRNA-seq)技术能够通过分离和捕获单个细胞,获得个体的转录本信息,进而将转录本信息映射到单个细胞形成测序文库,用于评估细胞群体和生物系统基本生物学特性[2];它还可以通过检测肿瘤组织中细胞表达的差异,分析已知细胞的转录本信息或发现新的细胞类型[3]。由于乳腺癌是一类异质性极高的恶性肿瘤,尤其是三阴性乳腺癌(triple-negative breast cancer,TNBC),其TME是一个高度异质的生态系统,它们促进肿瘤的迁移、侵袭、转移甚至药物抵抗。因此,了解scRNA-seq和乳腺癌的TME对临床医生为患者选择更有效的个体化治疗方案及改善患者的预后至关重要。
1 scRNA-seq技术介绍
1.1 scRNA-seq技术的发展及意义
自1977年测序技术出现以来,测序技术发展迅猛,已经从第1代发展到了第4代。测序技术逐渐成为人类探索基因最有用的工具,测序的样本逐渐由组织或大量细胞发展至如今的单细胞层面,已开发出许多单细胞测序方法,包括全外显子组测序、scRNA-seq、全基因组测序、全DNA甲基化测序、转座酶可接近性核染色质区域测序等[4]。其中scRNA-seq是目前应用最广泛的单细胞测序方法。2009年Tang等[5]首次报道了在单个细胞中应用高通量测序对转录组学进行研究,但该技术只能描绘单个细胞的转录组特征,应用范围有限。为了提高测序效率,目前已建立了一系列scRNA-seq技术,如单细胞标记的逆转录测序、RNA转录物5′ 端转换机制测序(switching mechanism at 5′ end of the RNA transcript,Smart-seq)、细胞表达线性扩增测序、Smart-seq2、液滴单细胞RNA测序、索引液滴RNA测序、10×Genology测序、Smart-seq3、dA拖尾法对单个细胞大规模转录组分析等[6-9],scRNA-seq技术从最初只能检测几个细胞到现在单次实验可以同时检测数十万个细胞,显著提高了实验效率。同时,单细胞分离、建库、测序等环节的改进使得测序成本降低以及所获有效信息量增加。在近十年里,scRNA-seq已成为生物医学研究的关键,特别是在发育生物学、癌症、免疫学和神经科学方面[10]。与传统的转录组测序相比,scRNA-seq从分子水平揭示某些细胞亚群的表达、筛查早期疾病、评估临床病情、阐明药物作用机制等方面具有较大的优势[11]。
1.2 scRNA-seq工作流程
scRNA-seq的工作流程包括以下步骤:样品制备、单细胞分离和捕获、逆转录、cDNA扩增、单细胞文库制备、RNA测序和数据分析[12]。① 样品制备,包括目标组织采集及保存。② 单细胞分离和捕获,即通过物理破坏或化学方法从组织中捕获高质量单个细胞,从中提取精确的遗传和生化信息,目前常用的细胞分离方法包括连续稀释法、显微操作法、激光显微切割法、流式细胞法、微孔芯片技术、微流控技术等[13-15]。③ 逆转录、cDNA扩增和单细胞文库制备,此是转录组测序的关键步骤。一般情况下,由于单细胞中RNA含量低,存在scRNA-seq结果阴性可能,因此进行测序操作前需要对单细胞中的核酸进行扩增,以提高核酸含量以便进行后续实验分析,其具体方法是,首先将获取的RNA逆转录成cDNA,然后进行扩增形成单细胞RNA文库。随着多个测序平台的发展,转录组测序文库制备技术也呈现出快速、多样化的发展。因此,了解不同的scRNA-seq文库制备方法的特点和应用,能够指导研究者在科学研究中做出适当选择,更好地进行科学研究和临床验证。④ RNA测序,包括第二代高通量测序和第三代高通量测序。第二代高通量测序具有测序成本较低和测序效率较高的特点,而第三代高通量测序基于单分子测序技术,不依赖聚合酶链式反应(polymerase chain reaction,PCR)扩增技术,能够避免PCR扩增产生的误差。⑤ 数据分析。在单细胞分离和单细胞文库构建之后,原始测序数据通过Cellranger等处理转换为基因表达谱以便进行后续数据分析[16],由于数据分析方法复杂多样,极具挑战性,因此单独介绍。
1.3 scRNA-seq数据分析
scRNA-seq数据分析包括上游数据分析和下游数据分析[17]。
上游数据分析包括:数据质量控制、标准化、批量效应和数据集成[17]。① 质量控制,包括确定每个序列的计数数量、基因数量及线粒体基因计数比例[18],其中部分细胞因基因数量少和线粒体基因计数比例高被认为质量不佳而被去除;同时控制环境中的RNA污染也很重要,环境RNA是存在于单细胞溶液中的RNA,在封装过程中并入油滴中,因此使用用于估计和消除此类污染的方法和工具SoupX测量来自空滴的环境RNA污染后并将它剔除。② 标准化,单细胞数据需要经过不同类型和级别的标准化处理,如总测序计数会改变原始计数,因此基因计数应调整为总计数深度,它是数据分析中必不可少的一步。常用标准化归一化的方法有SCtransform、SCNorm、BayNorm等[19-21]。③ 批量效应校正和数据集成,经过处理后一般会生成多个数据集,这就需要消除批量效应并进行数据集成,常用方法有Scanorama、Harmony等[22-23]。
下游数据分析包括:细胞类型鉴定、细胞和基因水平的分析[17]。其中细胞和基因水平的分析以细胞类型鉴定为基础,且通常根据客观结果及研究者主观认识决定后续分析方向,因此,此处重点介绍细胞类型鉴定,它包括降维、聚类和细胞注释。① 降维,通过线性和非线性方法实现,前者最常用的方法是主成分分析,但因它受到线性降维和数据需符合正态分布的限制,不适合运用于scRNA-seq数据集的降维处理。非线性降维方法应用广泛,能有效避免相关表征的过度拥挤并在重叠区域表示出不同的簇,具体方法包括t分布随机邻居嵌入(t-distributed stochastic neighbor embedding,t-SNE)、一致流形逼近与投影(uniform manifold approximation and projection,UMAP)、扩散映射等[24-26],其中t-SNE和UMAP优势各不相同,t-SNE着重提供数据的维度位置,同时最大限度减少相邻数据点之间距离的失真;UMAP则能保留更多的全局结构,在运行时间上具有一定优势,可重复性更高。而在实际应用中往往是t-SNE和UMAP联合使用。② 聚类是scRNA-seq进行细胞类型鉴定的关键步骤,常用方法大多是基于无监督学习的算法,如k均值聚类、分层聚类、基于密度的聚类、社区发现等[27]。③ 注释是将聚类获得的簇准确可靠地与相应细胞类型匹配,常通过细胞差异表达基因或标志基因对簇进行注释。各种聚类和注释方法不断进步发展,可指导实验方案制订并提供佐证,但无法将它完全替代,因此仍需进一步探索聚类与注释方法。细胞和基因水平的分析方法包括差异表达、功能富集、细胞比例变化、轨迹分析、基因调控网络、细胞通讯等[28]。
目前已发展了较多单细胞转录组数据集分析方法,单细胞转录组数据分析的前景广阔,但挖掘与探索新的分析方法仍然面临重大挑战。总的来说,随着scRNA-seq数据分析方法与技术的不断进步,未来能更好地了解各种疾病的发病机制,进而实现个体化治疗。
2 乳腺癌的异质性
肿瘤异质性是指在恶性肿瘤发展过程中经过数次分裂增殖后,其子代细胞的基因或分子生物学发生了改变,其生长速度、侵袭能力、对药物敏感性、预后等方面产生差异[29]。乳腺癌绝大部分患者都有异质性表现,包括病理学、基因组改变、基因表达和TME的异质性,它们共同影响临床行为和治疗反应,因此,了解乳腺癌异质性的起源和机制非常重要。乳腺癌具有多种分子亚型,各种亚型的肿瘤异质性机制存在差异,尤其是TNBC,它是一种预后较差的乳腺癌分型,与激素受体阳性乳腺癌相比,虽然它接受新辅助化疗的有效率更高,但仍难以达到病理完全缓解[30],此结果提示,可能存在部分对化疗不敏感的TNBC细胞亚群,因此,准确鉴定这些细胞亚群可为TNBC的靶向治疗和改善其预后研究奠定基础。由于scRNA-seq技术可清晰地显示乳腺癌内部细胞构成、鉴定细胞类型与亚型,可用于研究肿瘤异质性的起源和机制。Karaayvaz等[31]通过对未经治疗的原发TNBC进行scRNA-seq证实了原发TNBC的细胞异质性,并通过聚类分析确定了5个不同的细胞簇,其中在上皮细胞簇中循环细胞比例最高,提示增殖能力高且与较差的生存预后有关。除TNBC外,scRNA-seq也可被用于其他乳腺癌亚型的研究。因此,在scRNA-seq技术的指导下,临床医生可为不同分子分型的乳腺癌患者选择更有效的治疗方案,改善患者的预后。
3 scRNA-seq在乳腺癌TME中的研究进展
乳腺癌的发生和发展不仅依赖于肿瘤细胞的增殖,还依赖于TME的异质性。乳腺癌TME主要由肿瘤细胞、免疫细胞和间质细胞组成。其中肿瘤浸润免疫细胞、肿瘤相关成纤维细胞(cancer-associated fibroblasts,CAFs)等微环境成分与肿瘤发展、肿瘤血管形成、肿瘤免疫反应等生物过程相关[32-33],同时这些细胞已被证实在乳腺癌的发生、发展和转移中起着关键的作用。然而对乳腺癌TME的详细了解在很大程度上仍然是未知的。scRNA-seq技术的出现为探索复杂的乳腺癌TME、进一步促进个体化治疗和克服耐药性提供了技术支持。下面简要介绍一些应用scRNA-seq技术探索乳腺癌TME异质性的重要研究。
3.1 肿瘤细胞
近年来,针对乳腺癌基因表达谱的研究已经确定了雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)、人表皮生长因子受体2(HER2)等特异性标志物,用于乳腺癌亚型诊断并指导内分泌治疗和靶向治疗。然而肿瘤内的异质性可影响甚至限制内分泌和特定靶向治疗的反应和临床效果[34],例如有研究[35]表明,HER2表达在患者治疗过程中并不是恒定的,存在ER、HER2阳性患者在经抗HER2靶向治疗后再次取病理组织进行免疫组织化学染色检测时发现转为ER阳性、HER2阴性的现象,但其机制不明。scRNA-seq技术为从单细胞分辨率下评估乳腺癌的肿瘤异质性、阐明其生物学复杂性提供了一种手段。① scRNA-seq技术可为乳腺癌抗肿瘤治疗提供技术支持。根据ER、PR和HER2表达情况,乳腺癌分为Luminal A型、Luminal B型、HER2阳性型及三阴性4种分型[36]。Chung等[37]对11例诊断为4种分型的乳腺癌患者的515个肿瘤细胞进行scRNA-seq分析发现,免疫组织化学染色结果诊断为ER和HER2阳性的肿瘤中因肿瘤异质性导致分离出的绝大部分肿瘤细胞为ER、HER2阳性,但也有少部分为ER阳性、HER2阴性,其原因是由于部分细胞HER2基因低表达和ER分子信号通路的激活。因此scRNA-seq技术可以帮助识别ER和HER2阳性乳腺癌,ER分子信号通路的显著激活可能获益于内分泌治疗;部分肿瘤细胞HER2基因低表达可能对靶向治疗具有抵抗性,因此,选择合适的治疗方案可能能够显著改善患者的预后。② scRNA-seq也可用于探索乳腺癌抗肿瘤治疗后耐药细胞亚群,为后续抗肿瘤治疗提供指导。例如Wang等[38]应用scRNA-seq技术在乳腺癌细胞周期依赖性蛋白激酶4/6(cyclin-dependent kinase,CDK4/6)抑制剂耐药肿瘤中发现了一种新的亚型,并且推测这种亚型进行酪氨酸激酶抑制剂联合免疫检查点阻断可能有助于抗肿瘤免疫并逆转CDK4/6抑制剂的耐药性。Jang等[39]分析了乳腺癌scRNA-seq数据后发现,具有放射抗性的肿瘤细胞与较高的程序性死亡蛋白配体1(programmed death ligand 1,PD-L1)阳性率和肿瘤突变负荷相关;此外发现,与Luminal型和HER2阳性型乳腺癌相比,TNBC肿瘤细胞表达更高水平的免疫检查点,此结果提示,放射治疗结合免疫检查点阻断可有效对抗放射敏感和PD-L1过表达的肿瘤突变负荷较高的TNBC细胞。③ scRNA-seq可用于探索乳腺癌中起重要作用的基因与靶点,以期为乳腺癌综合治疗提供新思路。Zhou等[40]使用scRNA-seq对TNBC患者肿瘤细胞的基因调控网络进行了全面分析,根据拷贝数变异鉴定出了545个恶性细胞并将它分型,然后通过整合基因共表达和转录结合基序的富集来构建每个亚型的基因调控网络,根据基因的中心性指标确定了多个关键基因,其中ETS变体转录因子6(ETS variant transcription factor 6,ETV6)在所有亚型中普遍上调,因此ETV6被认为是TNBC发展的关键基因,它可以通过调节不同的靶基因在每个亚型中发挥不同的作用。综上所述,scRNA-seq是一种很有前途的工具,可以用来探索识别乳腺癌细胞与免疫检查点相关的标志分子或与肿瘤进展相关的基因,为临床用药提供指导,并更准确地预测个体药物治疗反应。
3.2 CAFs
CAFs是源自于各种细胞前体的肿瘤基质细胞的高度异质亚群,通常来源于正常驻留组织成纤维细胞、间充质干细胞、脂肪细胞、内皮细胞和周细胞[41-42]。CAFs是乳腺癌TME中最丰富的基质细胞[43]。根据整合素β1、成纤维细胞激活蛋白、平滑肌肌动蛋白等特异性标志物,目前将CAFs分为CAF-S1、CAF-S2、CAF-S3和CAF-S4亚群。随着乳腺癌的进展,正常的乳腺间质被破坏,正常成纤维细胞减少,肿瘤细胞将成纤维细胞重新编程为CAFs[41]。CAFs依靠其强大的分泌和组织黏附能力分散在肿瘤组织内,促进肿瘤进展,然而它们在肿瘤发生、发展和治疗反应中的作用与机制还不清楚。scRNA-seq技术可在单细胞水平揭示CAFs的生物特性,探索相关靶点以及评估药物治疗反应。① scRNA-seq可用于鉴定CAFs并根据相关基因表达情况分群。例如,Puram等[44]通过scRNA-seq分析证明了在乳腺癌中存在CAFs,它们主要参与免疫细胞向肿瘤的募集、诱导肿瘤细胞的上皮-间充质转化。另外,根据目前已有scRNA-seq相关研究[45-46],CAFs被分为3个功能亚群:炎性CAFs、纤维母细胞性CAFs和细胞外基质性CAFs,它们可以直接或间接地与肿瘤细胞、髓系细胞和T细胞相互作用,促进肿瘤发展。Cords等[47]通过对14例乳腺癌患者的16 000多个间质细胞进行scRNA-seq分析发现了9个不同类型的CAFs,各个CAFs亚群的基因表达情况都与其功能相关,并且在临床队列中具有独立的预后预测能力。② scRNA-seq也可用于寻求新的CAFs相关生物标志物和分子靶点。Li等[48]应用scRNA-seq数据分析筛选出与乳腺癌预后相关的14个特征基因并进行风险评分,风险评分越高的患者表现出肿瘤免疫抑制,它们对化学药物治疗和免疫治疗的治疗效果不佳,其中微纤维相关蛋白4在外部验证集和实验中均与CAFs具有较强的相关性。综上所述,应用scRNA-seq对CAFs亚群的准确分型和对新靶点的探索为靶向CAFs的药物开发提供了可能。
3.3 免疫细胞
乳腺癌TME中的免疫细胞包括肿瘤浸润性淋巴细胞(tumor-infiltrating lymphocytes,TILs)、髓系细胞、自然杀伤(natural killer,NK)细胞等。有研究[49]表明,免疫细胞在肿瘤进展和治疗反应中发挥着重要作用;同时有越来越多的证据支持免疫细胞浸润在乳腺癌的进展中起关键作用[50]。目前TILs和髓系细胞已被证实与乳腺癌进展相关且scRNA-seq相关研究进展较多,而NK细胞在乳腺癌中的作用所知甚少且尚未发现scRNA-seq相关研究,因此,这一部分着重介绍TILs和髓系细胞这两类免疫细胞在乳腺癌中的应用进展。
3.3.1 TILs
TILs包括T细胞、B细胞等。① 乳腺癌TME中T细胞是含量最丰富的免疫细胞,波动范围大,约占免疫细胞总数的21%~96%[49]。浸润性乳腺癌中T细胞数量和类型是决定治疗和预后的关键因素。乳腺癌组织中T细胞类型众多且存在异质性,随着CD8+ T细胞向组织驻留记忆表型或耗竭的转变,调节性T细胞通常占优势地位;尽管CD4+、CD8+ 等T细胞类型功能异常,仍有部分CD8+ T细胞亚群因可与调节性T细胞和PD-L1+ T细胞相互作用并建立复杂的免疫抑制环境而具有显著的免疫抑制作用,该CD8+ T细胞亚群的抗炎、耗竭、缺氧和无能基因上调,且其免疫治疗靶基因在TILs中差异表达[51]。Azizi等[52]对8例乳腺癌患者的免疫细胞进行了scRNA-seq分析,验证了肿瘤免疫细胞具有异质性,同时发现肿瘤组织和邻近病变组织中的T细胞在转录组学上具有相似性,与外周循环系统中的T细胞又显著不同,此结果提示,局部原发肿瘤对T细胞进行了重新编程。Savas等[53]对6 311个T细胞进行scRNA-seq分析后发现了一种新的组织驻留记忆CD8+ T细胞,且证明该细胞中程序性细胞死亡蛋白1、细胞毒性T淋巴细胞相关蛋白4等抑制性受体基因的表达较高,且还表达细胞毒效应蛋白,提示组织驻留记忆CD8+ T细胞可能与免疫监视相关。另外,Guo等[54]对乳腺癌患者的25932个细胞进行scRNA-seq分析发现,T细胞相关标志基因集中表达在与免疫相关的通路中,并以此建立预后模型,该模型有助于预测乳腺癌的预后和对治疗的反应。综上,肿瘤中的T细胞分子是一种有潜力的生物标志物,可用于乳腺癌的预后评估和治疗监测,而应用scRNA-seq可进一步探索乳腺癌中T细胞中的标志分子,以期寻求新的治疗靶点。② 肿瘤中的B细胞分为7类,即初始B细胞、IgM+CD27+ 记忆B细胞、IgM+CD27- 非典型记忆B细胞、转换型记忆B细胞、浆细胞、生发中心B细胞和CD14+ 非典型B细胞。在乳腺癌中B细胞可能通过各种途径促进免疫监视。Lu等[55]应用scRNA-seq对新辅助化疗前(998个细胞)和新辅助化疗后(1 499个细胞)乳腺癌患者临床样本中的B细胞进行分析发现,新辅助化疗后出现独特的诱导共刺激配体阳性B细胞亚群,并且它通过提高调节性 T 细胞的比率来增强抗肿瘤作用。Hu等[56]对乳腺癌中B细胞进行了scRNA-seq分析发现,B细胞可增加肿瘤中B细胞抗原受体的多样性,主要表现出潜在的免疫原性和抗原提呈活性,并通过各种途径发挥抗肿瘤作用。因此,应用scRNA-seq可能发现新的B细胞亚群并进一步探索在乳腺癌发生及发展过程中发挥的作用。
3.3.2 髓系细胞
髓系细胞包括肿瘤相关巨噬细胞(tumor-associated macrophage,TAMs)、肿瘤相关中性粒细胞(tumor-associated neutrophils,TANs)和肿瘤相关单核细胞,主要通过免疫抑制和细胞因子分泌促进肿瘤进展且具有异质性[57]。其中TAMs已被证实与乳腺癌相关,因此此处着重介绍TAMs。① TAMs是肿瘤病变中分布最广泛的髓系细胞群,可分化为促炎症的M1型或免疫抑制的M2型。Bao等[58]通过对TNBC患者临床样本进行scRNA-seq分析发现,CD276、CD163、MS4A6A、 转化生长因子β诱导蛋白等在M2型TAMs中广泛表达,表现出M2型级联分化的特征,并且它们与TAMs具有较强的相关性,有作为预测预后和对免疫治疗反应的标志物的潜力。另外,有研究者[59]通过采用scRNA-seq技术确定与M1、M2型TAMs相关的基因研究后认为,将M2型转化为M1型是刺激免疫反应和提高乳腺癌治疗效果的有效措施。Kersten等[60]研究发现,通过耗竭TAMs可启动肿瘤浸润CD8+ T细胞的耗竭程序并增强其免疫效应。此外,Wu等[61]对乳腺癌患者临床样本进行scRNA-seq分析发现,在脂质代谢基因(脂肪酸结合蛋白5和载脂蛋白E)高表达的肿瘤中存在一种新型脂质相关巨噬细胞,该细胞可通过表达PD-L1和PD-L2对乳腺癌进行免疫调节。综上,scRNA-seq在单细胞层面可以将TAMs根据功能分为更详细的细胞亚群,同时可发现新的细胞亚群并探索相关基因与生物标志物,最终为实现临床转化提供可能。② TANs已被认为是关键的肿瘤浸润免疫细胞[62]。TANs可以通过驱动血管生成、细胞外基质重塑、转移和免疫抑制参与肿瘤免疫,也可以通过直接杀死肿瘤细胞和参与抗肿瘤耐药性来介导抗肿瘤反应[63]。但在乳腺癌中TANs作用所知有限,scRNA-seq相关研究较少。有研究[64]表明,乳腺癌细胞可以通过分泌肿瘤生长因子β细胞因子招募TANs并促进乳腺癌进展。因此scRNA-seq或可以为阐明TANs在乳腺癌中的作用机制提供新思路。③ 肿瘤相关单核细胞在乳腺癌TME中也起着非常关键的作用[65]。单核细胞可以分化为骨髓来源抑制细胞、巨噬细胞、树突状细胞等。肿瘤相关单核细胞相关scRNA-seq研究较少。因此,scRNA-seq有望用于了解乳腺癌TME中肿瘤相关单核细胞的性质并探索影响其分化的机制。
4 总结与展望
目前单细胞转录组学已初步用于乳腺癌TME的研究,但是更深入的技术和分析方法还未完全成熟,而且与乳腺癌发生及发展相关的TME尚未得到充分研究。新的单细胞转录组学技术(包括丰富的转录组学探索策略、多转录组学联合分析模式以及深度学习网络结构)也在飞速发展,有助于加深对乳腺癌TME的理解,为充分了解乳腺癌、寻求新的乳腺癌治疗手段提供了可供选择的分析方法。
重要声明
利益冲突声明:本文全体作者阅读并理解了《中国普外基础与临床杂志》的政策声明,我们没有相互竞争的利益。
作者贡献声明:张光文提出选题并进行了文章撰写;张光文和成晨共同进行了文献检索和资料收集;王世明对文章进行了审阅和修改。
2020年乳腺癌已成为全球癌症发病谱和女性死亡谱首位,严重威胁女性健康[1]。乳腺癌的发生和发展与肿瘤微环境(tumor microenvironment,TME)密切相关。因此,进一步了解乳腺癌的发病机制、异质性以及它与TME交互作用对乳腺癌诊断及精准治疗至关重要。目前,针对乳腺癌发病机制的研究方法多为传统批量测序,该方法主要提供肿瘤细胞群体基因表达的平均数量,不能捕捉肿瘤细胞群体中存在的异质性,也无法获得TME的具体情况。近年来兴起的单细胞RNA测序(single-cell RNA sequencing,scRNA-seq)技术能够通过分离和捕获单个细胞,获得个体的转录本信息,进而将转录本信息映射到单个细胞形成测序文库,用于评估细胞群体和生物系统基本生物学特性[2];它还可以通过检测肿瘤组织中细胞表达的差异,分析已知细胞的转录本信息或发现新的细胞类型[3]。由于乳腺癌是一类异质性极高的恶性肿瘤,尤其是三阴性乳腺癌(triple-negative breast cancer,TNBC),其TME是一个高度异质的生态系统,它们促进肿瘤的迁移、侵袭、转移甚至药物抵抗。因此,了解scRNA-seq和乳腺癌的TME对临床医生为患者选择更有效的个体化治疗方案及改善患者的预后至关重要。
1 scRNA-seq技术介绍
1.1 scRNA-seq技术的发展及意义
自1977年测序技术出现以来,测序技术发展迅猛,已经从第1代发展到了第4代。测序技术逐渐成为人类探索基因最有用的工具,测序的样本逐渐由组织或大量细胞发展至如今的单细胞层面,已开发出许多单细胞测序方法,包括全外显子组测序、scRNA-seq、全基因组测序、全DNA甲基化测序、转座酶可接近性核染色质区域测序等[4]。其中scRNA-seq是目前应用最广泛的单细胞测序方法。2009年Tang等[5]首次报道了在单个细胞中应用高通量测序对转录组学进行研究,但该技术只能描绘单个细胞的转录组特征,应用范围有限。为了提高测序效率,目前已建立了一系列scRNA-seq技术,如单细胞标记的逆转录测序、RNA转录物5′ 端转换机制测序(switching mechanism at 5′ end of the RNA transcript,Smart-seq)、细胞表达线性扩增测序、Smart-seq2、液滴单细胞RNA测序、索引液滴RNA测序、10×Genology测序、Smart-seq3、dA拖尾法对单个细胞大规模转录组分析等[6-9],scRNA-seq技术从最初只能检测几个细胞到现在单次实验可以同时检测数十万个细胞,显著提高了实验效率。同时,单细胞分离、建库、测序等环节的改进使得测序成本降低以及所获有效信息量增加。在近十年里,scRNA-seq已成为生物医学研究的关键,特别是在发育生物学、癌症、免疫学和神经科学方面[10]。与传统的转录组测序相比,scRNA-seq从分子水平揭示某些细胞亚群的表达、筛查早期疾病、评估临床病情、阐明药物作用机制等方面具有较大的优势[11]。
1.2 scRNA-seq工作流程
scRNA-seq的工作流程包括以下步骤:样品制备、单细胞分离和捕获、逆转录、cDNA扩增、单细胞文库制备、RNA测序和数据分析[12]。① 样品制备,包括目标组织采集及保存。② 单细胞分离和捕获,即通过物理破坏或化学方法从组织中捕获高质量单个细胞,从中提取精确的遗传和生化信息,目前常用的细胞分离方法包括连续稀释法、显微操作法、激光显微切割法、流式细胞法、微孔芯片技术、微流控技术等[13-15]。③ 逆转录、cDNA扩增和单细胞文库制备,此是转录组测序的关键步骤。一般情况下,由于单细胞中RNA含量低,存在scRNA-seq结果阴性可能,因此进行测序操作前需要对单细胞中的核酸进行扩增,以提高核酸含量以便进行后续实验分析,其具体方法是,首先将获取的RNA逆转录成cDNA,然后进行扩增形成单细胞RNA文库。随着多个测序平台的发展,转录组测序文库制备技术也呈现出快速、多样化的发展。因此,了解不同的scRNA-seq文库制备方法的特点和应用,能够指导研究者在科学研究中做出适当选择,更好地进行科学研究和临床验证。④ RNA测序,包括第二代高通量测序和第三代高通量测序。第二代高通量测序具有测序成本较低和测序效率较高的特点,而第三代高通量测序基于单分子测序技术,不依赖聚合酶链式反应(polymerase chain reaction,PCR)扩增技术,能够避免PCR扩增产生的误差。⑤ 数据分析。在单细胞分离和单细胞文库构建之后,原始测序数据通过Cellranger等处理转换为基因表达谱以便进行后续数据分析[16],由于数据分析方法复杂多样,极具挑战性,因此单独介绍。
1.3 scRNA-seq数据分析
scRNA-seq数据分析包括上游数据分析和下游数据分析[17]。
上游数据分析包括:数据质量控制、标准化、批量效应和数据集成[17]。① 质量控制,包括确定每个序列的计数数量、基因数量及线粒体基因计数比例[18],其中部分细胞因基因数量少和线粒体基因计数比例高被认为质量不佳而被去除;同时控制环境中的RNA污染也很重要,环境RNA是存在于单细胞溶液中的RNA,在封装过程中并入油滴中,因此使用用于估计和消除此类污染的方法和工具SoupX测量来自空滴的环境RNA污染后并将它剔除。② 标准化,单细胞数据需要经过不同类型和级别的标准化处理,如总测序计数会改变原始计数,因此基因计数应调整为总计数深度,它是数据分析中必不可少的一步。常用标准化归一化的方法有SCtransform、SCNorm、BayNorm等[19-21]。③ 批量效应校正和数据集成,经过处理后一般会生成多个数据集,这就需要消除批量效应并进行数据集成,常用方法有Scanorama、Harmony等[22-23]。
下游数据分析包括:细胞类型鉴定、细胞和基因水平的分析[17]。其中细胞和基因水平的分析以细胞类型鉴定为基础,且通常根据客观结果及研究者主观认识决定后续分析方向,因此,此处重点介绍细胞类型鉴定,它包括降维、聚类和细胞注释。① 降维,通过线性和非线性方法实现,前者最常用的方法是主成分分析,但因它受到线性降维和数据需符合正态分布的限制,不适合运用于scRNA-seq数据集的降维处理。非线性降维方法应用广泛,能有效避免相关表征的过度拥挤并在重叠区域表示出不同的簇,具体方法包括t分布随机邻居嵌入(t-distributed stochastic neighbor embedding,t-SNE)、一致流形逼近与投影(uniform manifold approximation and projection,UMAP)、扩散映射等[24-26],其中t-SNE和UMAP优势各不相同,t-SNE着重提供数据的维度位置,同时最大限度减少相邻数据点之间距离的失真;UMAP则能保留更多的全局结构,在运行时间上具有一定优势,可重复性更高。而在实际应用中往往是t-SNE和UMAP联合使用。② 聚类是scRNA-seq进行细胞类型鉴定的关键步骤,常用方法大多是基于无监督学习的算法,如k均值聚类、分层聚类、基于密度的聚类、社区发现等[27]。③ 注释是将聚类获得的簇准确可靠地与相应细胞类型匹配,常通过细胞差异表达基因或标志基因对簇进行注释。各种聚类和注释方法不断进步发展,可指导实验方案制订并提供佐证,但无法将它完全替代,因此仍需进一步探索聚类与注释方法。细胞和基因水平的分析方法包括差异表达、功能富集、细胞比例变化、轨迹分析、基因调控网络、细胞通讯等[28]。
目前已发展了较多单细胞转录组数据集分析方法,单细胞转录组数据分析的前景广阔,但挖掘与探索新的分析方法仍然面临重大挑战。总的来说,随着scRNA-seq数据分析方法与技术的不断进步,未来能更好地了解各种疾病的发病机制,进而实现个体化治疗。
2 乳腺癌的异质性
肿瘤异质性是指在恶性肿瘤发展过程中经过数次分裂增殖后,其子代细胞的基因或分子生物学发生了改变,其生长速度、侵袭能力、对药物敏感性、预后等方面产生差异[29]。乳腺癌绝大部分患者都有异质性表现,包括病理学、基因组改变、基因表达和TME的异质性,它们共同影响临床行为和治疗反应,因此,了解乳腺癌异质性的起源和机制非常重要。乳腺癌具有多种分子亚型,各种亚型的肿瘤异质性机制存在差异,尤其是TNBC,它是一种预后较差的乳腺癌分型,与激素受体阳性乳腺癌相比,虽然它接受新辅助化疗的有效率更高,但仍难以达到病理完全缓解[30],此结果提示,可能存在部分对化疗不敏感的TNBC细胞亚群,因此,准确鉴定这些细胞亚群可为TNBC的靶向治疗和改善其预后研究奠定基础。由于scRNA-seq技术可清晰地显示乳腺癌内部细胞构成、鉴定细胞类型与亚型,可用于研究肿瘤异质性的起源和机制。Karaayvaz等[31]通过对未经治疗的原发TNBC进行scRNA-seq证实了原发TNBC的细胞异质性,并通过聚类分析确定了5个不同的细胞簇,其中在上皮细胞簇中循环细胞比例最高,提示增殖能力高且与较差的生存预后有关。除TNBC外,scRNA-seq也可被用于其他乳腺癌亚型的研究。因此,在scRNA-seq技术的指导下,临床医生可为不同分子分型的乳腺癌患者选择更有效的治疗方案,改善患者的预后。
3 scRNA-seq在乳腺癌TME中的研究进展
乳腺癌的发生和发展不仅依赖于肿瘤细胞的增殖,还依赖于TME的异质性。乳腺癌TME主要由肿瘤细胞、免疫细胞和间质细胞组成。其中肿瘤浸润免疫细胞、肿瘤相关成纤维细胞(cancer-associated fibroblasts,CAFs)等微环境成分与肿瘤发展、肿瘤血管形成、肿瘤免疫反应等生物过程相关[32-33],同时这些细胞已被证实在乳腺癌的发生、发展和转移中起着关键的作用。然而对乳腺癌TME的详细了解在很大程度上仍然是未知的。scRNA-seq技术的出现为探索复杂的乳腺癌TME、进一步促进个体化治疗和克服耐药性提供了技术支持。下面简要介绍一些应用scRNA-seq技术探索乳腺癌TME异质性的重要研究。
3.1 肿瘤细胞
近年来,针对乳腺癌基因表达谱的研究已经确定了雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)、人表皮生长因子受体2(HER2)等特异性标志物,用于乳腺癌亚型诊断并指导内分泌治疗和靶向治疗。然而肿瘤内的异质性可影响甚至限制内分泌和特定靶向治疗的反应和临床效果[34],例如有研究[35]表明,HER2表达在患者治疗过程中并不是恒定的,存在ER、HER2阳性患者在经抗HER2靶向治疗后再次取病理组织进行免疫组织化学染色检测时发现转为ER阳性、HER2阴性的现象,但其机制不明。scRNA-seq技术为从单细胞分辨率下评估乳腺癌的肿瘤异质性、阐明其生物学复杂性提供了一种手段。① scRNA-seq技术可为乳腺癌抗肿瘤治疗提供技术支持。根据ER、PR和HER2表达情况,乳腺癌分为Luminal A型、Luminal B型、HER2阳性型及三阴性4种分型[36]。Chung等[37]对11例诊断为4种分型的乳腺癌患者的515个肿瘤细胞进行scRNA-seq分析发现,免疫组织化学染色结果诊断为ER和HER2阳性的肿瘤中因肿瘤异质性导致分离出的绝大部分肿瘤细胞为ER、HER2阳性,但也有少部分为ER阳性、HER2阴性,其原因是由于部分细胞HER2基因低表达和ER分子信号通路的激活。因此scRNA-seq技术可以帮助识别ER和HER2阳性乳腺癌,ER分子信号通路的显著激活可能获益于内分泌治疗;部分肿瘤细胞HER2基因低表达可能对靶向治疗具有抵抗性,因此,选择合适的治疗方案可能能够显著改善患者的预后。② scRNA-seq也可用于探索乳腺癌抗肿瘤治疗后耐药细胞亚群,为后续抗肿瘤治疗提供指导。例如Wang等[38]应用scRNA-seq技术在乳腺癌细胞周期依赖性蛋白激酶4/6(cyclin-dependent kinase,CDK4/6)抑制剂耐药肿瘤中发现了一种新的亚型,并且推测这种亚型进行酪氨酸激酶抑制剂联合免疫检查点阻断可能有助于抗肿瘤免疫并逆转CDK4/6抑制剂的耐药性。Jang等[39]分析了乳腺癌scRNA-seq数据后发现,具有放射抗性的肿瘤细胞与较高的程序性死亡蛋白配体1(programmed death ligand 1,PD-L1)阳性率和肿瘤突变负荷相关;此外发现,与Luminal型和HER2阳性型乳腺癌相比,TNBC肿瘤细胞表达更高水平的免疫检查点,此结果提示,放射治疗结合免疫检查点阻断可有效对抗放射敏感和PD-L1过表达的肿瘤突变负荷较高的TNBC细胞。③ scRNA-seq可用于探索乳腺癌中起重要作用的基因与靶点,以期为乳腺癌综合治疗提供新思路。Zhou等[40]使用scRNA-seq对TNBC患者肿瘤细胞的基因调控网络进行了全面分析,根据拷贝数变异鉴定出了545个恶性细胞并将它分型,然后通过整合基因共表达和转录结合基序的富集来构建每个亚型的基因调控网络,根据基因的中心性指标确定了多个关键基因,其中ETS变体转录因子6(ETS variant transcription factor 6,ETV6)在所有亚型中普遍上调,因此ETV6被认为是TNBC发展的关键基因,它可以通过调节不同的靶基因在每个亚型中发挥不同的作用。综上所述,scRNA-seq是一种很有前途的工具,可以用来探索识别乳腺癌细胞与免疫检查点相关的标志分子或与肿瘤进展相关的基因,为临床用药提供指导,并更准确地预测个体药物治疗反应。
3.2 CAFs
CAFs是源自于各种细胞前体的肿瘤基质细胞的高度异质亚群,通常来源于正常驻留组织成纤维细胞、间充质干细胞、脂肪细胞、内皮细胞和周细胞[41-42]。CAFs是乳腺癌TME中最丰富的基质细胞[43]。根据整合素β1、成纤维细胞激活蛋白、平滑肌肌动蛋白等特异性标志物,目前将CAFs分为CAF-S1、CAF-S2、CAF-S3和CAF-S4亚群。随着乳腺癌的进展,正常的乳腺间质被破坏,正常成纤维细胞减少,肿瘤细胞将成纤维细胞重新编程为CAFs[41]。CAFs依靠其强大的分泌和组织黏附能力分散在肿瘤组织内,促进肿瘤进展,然而它们在肿瘤发生、发展和治疗反应中的作用与机制还不清楚。scRNA-seq技术可在单细胞水平揭示CAFs的生物特性,探索相关靶点以及评估药物治疗反应。① scRNA-seq可用于鉴定CAFs并根据相关基因表达情况分群。例如,Puram等[44]通过scRNA-seq分析证明了在乳腺癌中存在CAFs,它们主要参与免疫细胞向肿瘤的募集、诱导肿瘤细胞的上皮-间充质转化。另外,根据目前已有scRNA-seq相关研究[45-46],CAFs被分为3个功能亚群:炎性CAFs、纤维母细胞性CAFs和细胞外基质性CAFs,它们可以直接或间接地与肿瘤细胞、髓系细胞和T细胞相互作用,促进肿瘤发展。Cords等[47]通过对14例乳腺癌患者的16 000多个间质细胞进行scRNA-seq分析发现了9个不同类型的CAFs,各个CAFs亚群的基因表达情况都与其功能相关,并且在临床队列中具有独立的预后预测能力。② scRNA-seq也可用于寻求新的CAFs相关生物标志物和分子靶点。Li等[48]应用scRNA-seq数据分析筛选出与乳腺癌预后相关的14个特征基因并进行风险评分,风险评分越高的患者表现出肿瘤免疫抑制,它们对化学药物治疗和免疫治疗的治疗效果不佳,其中微纤维相关蛋白4在外部验证集和实验中均与CAFs具有较强的相关性。综上所述,应用scRNA-seq对CAFs亚群的准确分型和对新靶点的探索为靶向CAFs的药物开发提供了可能。
3.3 免疫细胞
乳腺癌TME中的免疫细胞包括肿瘤浸润性淋巴细胞(tumor-infiltrating lymphocytes,TILs)、髓系细胞、自然杀伤(natural killer,NK)细胞等。有研究[49]表明,免疫细胞在肿瘤进展和治疗反应中发挥着重要作用;同时有越来越多的证据支持免疫细胞浸润在乳腺癌的进展中起关键作用[50]。目前TILs和髓系细胞已被证实与乳腺癌进展相关且scRNA-seq相关研究进展较多,而NK细胞在乳腺癌中的作用所知甚少且尚未发现scRNA-seq相关研究,因此,这一部分着重介绍TILs和髓系细胞这两类免疫细胞在乳腺癌中的应用进展。
3.3.1 TILs
TILs包括T细胞、B细胞等。① 乳腺癌TME中T细胞是含量最丰富的免疫细胞,波动范围大,约占免疫细胞总数的21%~96%[49]。浸润性乳腺癌中T细胞数量和类型是决定治疗和预后的关键因素。乳腺癌组织中T细胞类型众多且存在异质性,随着CD8+ T细胞向组织驻留记忆表型或耗竭的转变,调节性T细胞通常占优势地位;尽管CD4+、CD8+ 等T细胞类型功能异常,仍有部分CD8+ T细胞亚群因可与调节性T细胞和PD-L1+ T细胞相互作用并建立复杂的免疫抑制环境而具有显著的免疫抑制作用,该CD8+ T细胞亚群的抗炎、耗竭、缺氧和无能基因上调,且其免疫治疗靶基因在TILs中差异表达[51]。Azizi等[52]对8例乳腺癌患者的免疫细胞进行了scRNA-seq分析,验证了肿瘤免疫细胞具有异质性,同时发现肿瘤组织和邻近病变组织中的T细胞在转录组学上具有相似性,与外周循环系统中的T细胞又显著不同,此结果提示,局部原发肿瘤对T细胞进行了重新编程。Savas等[53]对6 311个T细胞进行scRNA-seq分析后发现了一种新的组织驻留记忆CD8+ T细胞,且证明该细胞中程序性细胞死亡蛋白1、细胞毒性T淋巴细胞相关蛋白4等抑制性受体基因的表达较高,且还表达细胞毒效应蛋白,提示组织驻留记忆CD8+ T细胞可能与免疫监视相关。另外,Guo等[54]对乳腺癌患者的25932个细胞进行scRNA-seq分析发现,T细胞相关标志基因集中表达在与免疫相关的通路中,并以此建立预后模型,该模型有助于预测乳腺癌的预后和对治疗的反应。综上,肿瘤中的T细胞分子是一种有潜力的生物标志物,可用于乳腺癌的预后评估和治疗监测,而应用scRNA-seq可进一步探索乳腺癌中T细胞中的标志分子,以期寻求新的治疗靶点。② 肿瘤中的B细胞分为7类,即初始B细胞、IgM+CD27+ 记忆B细胞、IgM+CD27- 非典型记忆B细胞、转换型记忆B细胞、浆细胞、生发中心B细胞和CD14+ 非典型B细胞。在乳腺癌中B细胞可能通过各种途径促进免疫监视。Lu等[55]应用scRNA-seq对新辅助化疗前(998个细胞)和新辅助化疗后(1 499个细胞)乳腺癌患者临床样本中的B细胞进行分析发现,新辅助化疗后出现独特的诱导共刺激配体阳性B细胞亚群,并且它通过提高调节性 T 细胞的比率来增强抗肿瘤作用。Hu等[56]对乳腺癌中B细胞进行了scRNA-seq分析发现,B细胞可增加肿瘤中B细胞抗原受体的多样性,主要表现出潜在的免疫原性和抗原提呈活性,并通过各种途径发挥抗肿瘤作用。因此,应用scRNA-seq可能发现新的B细胞亚群并进一步探索在乳腺癌发生及发展过程中发挥的作用。
3.3.2 髓系细胞
髓系细胞包括肿瘤相关巨噬细胞(tumor-associated macrophage,TAMs)、肿瘤相关中性粒细胞(tumor-associated neutrophils,TANs)和肿瘤相关单核细胞,主要通过免疫抑制和细胞因子分泌促进肿瘤进展且具有异质性[57]。其中TAMs已被证实与乳腺癌相关,因此此处着重介绍TAMs。① TAMs是肿瘤病变中分布最广泛的髓系细胞群,可分化为促炎症的M1型或免疫抑制的M2型。Bao等[58]通过对TNBC患者临床样本进行scRNA-seq分析发现,CD276、CD163、MS4A6A、 转化生长因子β诱导蛋白等在M2型TAMs中广泛表达,表现出M2型级联分化的特征,并且它们与TAMs具有较强的相关性,有作为预测预后和对免疫治疗反应的标志物的潜力。另外,有研究者[59]通过采用scRNA-seq技术确定与M1、M2型TAMs相关的基因研究后认为,将M2型转化为M1型是刺激免疫反应和提高乳腺癌治疗效果的有效措施。Kersten等[60]研究发现,通过耗竭TAMs可启动肿瘤浸润CD8+ T细胞的耗竭程序并增强其免疫效应。此外,Wu等[61]对乳腺癌患者临床样本进行scRNA-seq分析发现,在脂质代谢基因(脂肪酸结合蛋白5和载脂蛋白E)高表达的肿瘤中存在一种新型脂质相关巨噬细胞,该细胞可通过表达PD-L1和PD-L2对乳腺癌进行免疫调节。综上,scRNA-seq在单细胞层面可以将TAMs根据功能分为更详细的细胞亚群,同时可发现新的细胞亚群并探索相关基因与生物标志物,最终为实现临床转化提供可能。② TANs已被认为是关键的肿瘤浸润免疫细胞[62]。TANs可以通过驱动血管生成、细胞外基质重塑、转移和免疫抑制参与肿瘤免疫,也可以通过直接杀死肿瘤细胞和参与抗肿瘤耐药性来介导抗肿瘤反应[63]。但在乳腺癌中TANs作用所知有限,scRNA-seq相关研究较少。有研究[64]表明,乳腺癌细胞可以通过分泌肿瘤生长因子β细胞因子招募TANs并促进乳腺癌进展。因此scRNA-seq或可以为阐明TANs在乳腺癌中的作用机制提供新思路。③ 肿瘤相关单核细胞在乳腺癌TME中也起着非常关键的作用[65]。单核细胞可以分化为骨髓来源抑制细胞、巨噬细胞、树突状细胞等。肿瘤相关单核细胞相关scRNA-seq研究较少。因此,scRNA-seq有望用于了解乳腺癌TME中肿瘤相关单核细胞的性质并探索影响其分化的机制。
4 总结与展望
目前单细胞转录组学已初步用于乳腺癌TME的研究,但是更深入的技术和分析方法还未完全成熟,而且与乳腺癌发生及发展相关的TME尚未得到充分研究。新的单细胞转录组学技术(包括丰富的转录组学探索策略、多转录组学联合分析模式以及深度学习网络结构)也在飞速发展,有助于加深对乳腺癌TME的理解,为充分了解乳腺癌、寻求新的乳腺癌治疗手段提供了可供选择的分析方法。
重要声明
利益冲突声明:本文全体作者阅读并理解了《中国普外基础与临床杂志》的政策声明,我们没有相互竞争的利益。
作者贡献声明:张光文提出选题并进行了文章撰写;张光文和成晨共同进行了文献检索和资料收集;王世明对文章进行了审阅和修改。