引用本文: 黎银潮, 林婉蓉, 陈树达, 赵怡然, 陈傲寒, 周列民. 人超极化激活环核苷酸门控通道 1 基因启动子区及蛋白的生物信息学分析. 癫痫杂志, 2020, 6(4): 296-306. doi: 10.7507/2096-0247.20200048 复制
超极化激活环核苷酸门控通道(Hyperpolarization activated cyclic nucleotide gated channel,HCN)属于电压门控型离子通道,迄今为止发现有四个亚型:HCN1-HCN4[1]。HCN1 和 HCN2 的表达存在时空特异性,并受严格的调控。中枢神经系统主要表达 HCN1 和 HCN2,心肌细胞主要表达 HCN4[2]。HCN 通道既参与所在组织的正常生理功能,也与所在组织的病理状态密切相关。神经损伤引起的神经源性疼痛常可检测到 HCN1 表达增加,肥厚性心肌病和终末期心力衰竭等常检测到心室肌细胞 HCN4 及 HCN2 mRNA 表达增加[1]。研究发现,在伴海马硬化性内侧颞叶癫痫(Mesial temporal lobe epilepsy with hippocampus sclrosis,MTLE-HS)大鼠模型中,大脑皮质和海马 HCN1 和 HCN2 表达明显下调,且这种下调可持续较长时间[3]。本课题组前期通过体外实验发现,MTLE-HS 大鼠模型 HCN1 和 HCN2 在不同时期表达均呈下降;MTLE-HS 大鼠模型、人外周血和人海马手术标本中 HCN1 和 HCN2 启动子甲基化水平升高及基因的蛋白水平表达下降,提示表观遗传学在调控 HCN 表达中的重要作用,可能是导致 MTLE-HS 患者 HCN 下调的机制之一。近年来,癫痫致病基因的转录调控得到了越来越多的重视,转录因子通过对基因的转录调控作用参与癫痫的发病机制,HCN1 和 HCN2 基因启动子及其转录调控元件的异常调控很可能是导致病理情况下 HCN 表达异常的原因。然而,目前对于 HCN 基因自身的转录调控及其分子机制仍不明确,在 NCBI 的数据库中也尚未记录人 HCN1 基因启动子序列,对 HCN1 启动子进行生物信息学分析亦未见报道。因此,为了系统地分析 HCN1 基因及其编码蛋白的性质及功能,本研究通过生物信息学方法进行预测分析,为深入研究基因的功能及其在癫痫等相关疾病的发病机制提供理论支持。
1 资料与方法
1.1 资料来源
人(Homo sapiens,O60741),黑猩猩(Pan paniscus,A0A2R9C401),马(Equus caballus,F7BZH9),猪(Sus scrofa,I3LEM3),牛(Bos taurus,E1BM97),狗(Canis lupus familiaris,F1PLK3),褐家鼠(Rattus norvegicus,Q9JKB0),小鼠(Mus musculus,O88704),鸡(Gallus gallus,F1N9K1),热带爪蟾(Xenopus tropicalis,F6YMQ2)蛋白质序列均由 Uniprot 获得;人 HCN1 基因及其上游的 2 000 bp 序列由 NBCI 及 UCSC 数据库获得。
1.2 方法
① 从 Genbank 及 Uniprot 数据库下载人及其他物种的 HCN1 的基因和蛋白序列;② 利用 DNAMAN 8.0 软件对物种的蛋白序列进行同源性比对,并用 MEGA 5.10 进行系统进化分析;③ 应用在线软件 ProtParam、ProtScale 和 TMHMM 程序分析 HCN1 蛋白的相对分子质量、氨基酸组成、等电点、原子组成、稳定性、半衰期、疏水性和跨膜区,采用 SignalP 5.0 软件预测 HCN1 蛋白是否含有信号肽。利用 NetPhos 3.1 软件对 HCN1 蛋白进行磷酸化位点分析,及 cNLS-mapper 预测核定位序列;④ 采用 SMART、SWISSMODEL、Swiss-PdbViewer 和 Pymol 工具分析蛋白质的功能域、二级结构和三级结构;⑤ 应用 Compartments 在线软件、The Human Protein Atlas 数据库、QuickGO 2 数据库和 Cytoscape 进行基因本体论、信号通路及蛋白互作分析;⑥ 采用 Neural Network Promoter Prediction、Promoter 2.0 和 TSSG 在线软件预测人 HCN1 基因 5'调控区中潜在的启动子区,并进行比较分析,参数设置采用默认值;⑦ 利用在线软件 AliBaba2.1 和 PROMO 对人 HCN1 基因 5'调控区转录因子结合位点进行预测,并进行统计分析,筛选出共同的转录因子;⑧ 采用 EMBOSS 和 MethPrimer 在线软件预测人 HCN1 基因启动子区 CpG 岛。
2 结果
2.1 HCN1 蛋白的生物信息学分析
2.1.1 人 HCN1 蛋白的同源性分析
人 HCN1 基因位于 5 号染色体的短臂上(5p12),编码 890 个氨基酸,具体位置为 chr5:45254948-45696380,包含 8 个外显子。利用 DNAMAN 8.0 软件对 10 个物种的蛋白序列进行同源性比对发现,人 HCN1 蛋白与黑猩猩、马、猪、牛、狗、褐家鼠、小鼠、鸡和热带爪蟾中同源蛋白的相似度分别为 96.74%、96.74%、96.07%、95.84%、92.62%、91.87%、91.87%、85.96% 和 75.62%。用 MEGA7 软件[4]中基于序列同源性的邻接法(Neighbor-joining,NJ)构建 HCN1 蛋白遗传进化关系树(图 1),从进化树中可观察到,在进化过程中,人与黑猩猩的亲缘关系最近。小鼠与褐家鼠的亲缘关系较近,聚为一类。其他物种的亲缘关系都较远。不同物种 HCN1 蛋白进化距离分析结果显示,人与黑猩猩的遗传距离最小,为 0.019;与热带爪蟾的进化关系最远,遗传距离为 0.182(表 1)。人 HCN1 蛋白在哺乳动物的同源蛋白相似度比较中均>90%,可见该蛋白序列保守性较高。


2.1.2 人 HCN1 蛋白的理化性质分析
采用在线软件 ProtParam[5]分析 HCN1 蛋白的理化性质,结果显示该蛋白由 890 个氨基酸组成,相对分子质量 98 796.00,等电点(pI):8.63,分子式:C4398H6889N1203O1298S44,总原子数:13832;带负电荷的氨基酸残基(谷氨酸+天冬氨酸):78 个,带正电荷的氨基酸残基(赖氨酸+精氨酸):85 个。HCN1 蛋白在哺乳动物的半衰期为 30 h,不稳定系数(II):50.88,根据不稳定系数的判断标准[6]:<40 被认为是稳定,>40 为不稳定,推定 HCN1 蛋白属于不稳定蛋白。
2.1.3 人 HCN1 蛋白的亲水性/疏水性分析
利用 ProtScale[5]程序对人 HCN1 蛋白的亲疏水性进行在线分析,基于 K-D 法的蛋白质疏水性,分值>0 为疏水性氨基酸,<0 为亲水性氨基酸,结果见图 2;其中最大值是第 151 位的异亮胺酸(Score 2.900),是疏水性最强的位点,最小值是第 408 位的谷氨酰胺(Score: -3.322),是亲水性最强的位点,人 HCN1 蛋白中 882 个氨基酸(5~886),有 61.11%(539 个)氨基酸分布在<0 的区域,38.89%(343 个)氨基酸分布在>0 的区域,表明人 HCN1 蛋白存在明显的亲水域,属亲水性蛋白质。这一结果与 Prot Param 程序分析得出的结构一致:HCN1 蛋白脂肪族氨基酸指数 68.06,总的亲水性平均系数(GRAVY)为−0.273,显示该蛋白为亲水蛋白质。

2.1.4 人 HCN1 蛋白的信号肽及核定位序列预测
利用信号肽预测服务器 SignalP5.0[7]预测人 HCN1 蛋白的信号肽,预测的结构见图 3,通过程序计算得出 C、Y、S 的值均为 0,通过这些数据可以得出人 HCN1 蛋白无信号肽(likelihood:0.003)。通过核定位序列预测系统 cNLS-mapper[8]对其进行预测分析 HCN1 蛋白没有核定位序列,据文献报道,当 cNLS-mapper 中 cut-off 值为 8~10 时,表明蛋白质专一定位于细胞核;当 cut-off 值为 7 或 8 时,部分定位于细胞核;当 cut-off 值为 3~5 时,定位于核内和胞浆内;当 cut-off 值为 1~2 时,表明定位于胞浆内[9]。

2.1.5 HCN1 蛋白的跨膜区预测与分析
使用 TMHMM[10]程序进行预测,通过计算得到图 4,结果显示 890 个氨基酸残基存在 2 个跨膜区,该蛋白 168~372 位氨基酸位于细胞内,145~167 和 373~395 位氨基酸形成 2 个典型的跨膜螺旋区,1~144 和 396~890 位氨基酸位于细胞外。

2.1.6 HCN1 蛋白的磷酸化位点分析
磷酸化及去磷酸化在真核生物的细胞分裂、信号转导等过程中有重要的作用。利用 NetPhos3.1[11]分析 HCN1 蛋白的磷酸化位点,结果见图 5。通过分析发现该蛋白可能含有 100 个磷酸化位点,丝氨酸磷酸化位点 60 个;苏氨酸磷酸化位点 31 个,酪氨酸磷酸化位点 9 个。

2.1.7 人 HCN1 蛋白二级结构分析
利用 SMART[12]在线软件对人 HCN1 蛋白的结构域进行分析,结果显示,该蛋白在 98~141、142~405 和 475~591 位氨基酸处分别分布有 Pfam:Ion_trans_N,Pfam:Ion_trans 和 cNMP(Cyclic nucleotide-monophosphate binding domain)结构域(图 6)。通过网站 Prabi GOR IV[13]对人 HCN1 蛋白的二级结构进行预测,结果显示该蛋白二级结构的主要类型为 α-螺旋(alpha helix),共 260 个(29.21%),无规则卷曲(random coil)456 个(51.24%),延伸链(extended strand)174 个(19.55%)。二级结构分布情况见图 7。

粉色(192~216 位氨基酸)为 low complexity 区域
Figure6. Protein domain prediction of human HCN1Pink(192~216)is low complexity region

蓝色为 α-螺旋,红色为延伸链,玫红色为无规则卷曲
Figure7. Secondary structure prediction of human HCN1Blue is α-helix, red is extended chain, rose red is irregular curl
2.1.8 人 HCN1 蛋白三级结构分析
本研究基于 Swiss-Mode 网站采用同源模建法分析人类 HCN1 蛋白的三级结构,SwissModel[14]采用同源建模法可预测蛋白的三级结构及相关参数。因此在 SwissModel 中提交人 HCN1 氨基酸序列,得到 1 个预测结果,结果见图 8(GMQE:0.66;QMEAN:-0.97;Template:6uqf.1.A;Seq Identity:99.37%;Coverage:94~635)。

红色为 α-螺旋,绿色为无规则卷曲,黄色为 β-转角
Figure8. Tertiary structure prediction of human HCN1Red is α-helix, green is irregular curl, yellow is β-turn
2.1.9 人 HCN1 蛋白亚细胞定位、组织表达特异性与 GO 分析
通过 Compartments 在线软件进行亚细胞定位分析,结果显示,HCN1 主要分布于质膜中(Evidence:31/32)。在 The Human Protein Atlas 数据库中的结果表明,HCN1 mRNA 在人体大多数组织均有表达,脑组织的表达量最高。利用 QuickGO 2 对人 HCN1 蛋白进行基因本体注释(Gene ontology,GO)发现,该蛋白位于质膜中(GO:0005886),与亚细胞定位结果一致;分子功能表现为与 cAMP 结合(GO:0030552)、电压门控离子通道活性(GO:0005244),参与细胞对 cAMP 的反应过程(GO:0071320)和钾离子的跨膜运输(GO:0071805)。
2.1.10 蛋白相互作用
使用 String 11.0[15]对人 HCN1 进行蛋白质相互作用预测,置信度设置为 0.400,数量限制为 10 个以内,构建人 HCN1 蛋白相互作用网络。结果显示,与人 HCN1 蛋白可能存在相互作用的有 10 个蛋白(图 9),其名称及得分见表 2,包括 HCN2、HCN4、PEX5L、MARCH7、KCTD3、GNAT3、SHKBP1、KCNQ2、FLNA、NEDD4L。人 HCN1 蛋白及其相互作用蛋白的 GO 分析及信号转导通路见表 3。



2.2 HCN1 启动子的生物信息学分析
启动子区预测和分析参数设置:Neural Network Promoter Prediction[16]启动子阈值设为 0.8,Promoter 2.0[17]和 TSSG[18]采用默认值。在 UCSC 数据库中获得人 HCN1 基因 5'上游−1~−2 000 bp 的序列,用 3 种不同的在线软件对2 000 bp 序列进行潜在的启动子区预测分析,TSSG 未发现启动子区,余结果见表 4。将人 HCN1 基因 5'上游 2 000 bp 序列与 Genecopoeia 网站查询到的人 HCN1 基因启动子序列 HPRM49983(产品编号)用 BLAST 工具作全序列对比,发现两者的一致性为 51%。HPRM49983 全 1289 bp,转录起始位点(TSS)位于 1 285 bp 的 C 碱基处。HCN1 基因 5'上游 2 000 bp 序列的 979~2 000 bp 与 HPRM49983 序列完全一致。由此推测 HCN1 基因启动子位于 5'上游 1 100 bp 序列内。

2.3 TATA 盒、GC 盒和 CAAT 盒的模序识别
CAAT 盒、TATA 盒和 GC 盒的模序识别可通过在 HCN1 基因 5'调控区序列上是否发现相应特征序列来实现。TATA 盒序列格式为 TATAWAW(W 代表 A 或 T);GC 盒序列格式为 GGGCGG; CAAT 盒序列格式为 CCAAT。通过查 TATA 盒、GC 盒和 CAAT 盒的相应特征序列发现,人 HCN1 基因 5'调控区有 1 个 CAAT 盒及 1 个 TATA 盒,分别位于 1 849~1 853 和 36~41,未查找到 GC 盒。
2.4 启动子区转录因子结合位点预测和分析
为提高转录因子结合位点预测的准确性,用 AliBaba2.1[19]和 PROMO2[20]种软件预测人 HCN1 基因启动子区转录因子结合位点。参数设置:Min mat.Conservation 设为 75%,其它参数为默认值;PROMO 参数设置:Considering factors选择 Only human factors,Considering sites 选择 Only human sites,其它参数为默认值;在 5'上游 1~2 000 bp 内 2 种软件分别预测到 183 和 931 个转录因子结合位点,分别涉及到 67 和 77 种转录因子。被 2 种软件共同预测到且结合位点位置相同的转录因子有 19 种,包括 NF-κB、NF-1、AP-1、TBP、IRF-1、c-Ets-1、Elf-1、HNF-3、HNF-1、YY1、GATA-1、RXR-α、GR、AP-2αA、ENKTF-1、C/EBPβ、C/EBPα、c-Fos 和 c-Jun。
2.5 人 HCN1 基因启动子区甲基化 CpG 岛预测
EMBOSS[21]预测人 HCN1 基因启动子区 CpG 岛。参数设置:CpG 检测含量/期望含量(Obs/Exp)>0.60,C+G 含量百分比> 50%,CpG 岛长度>200 bp。MethPrimer[22]采用默认值。利用在线软件 EMBOSS 和 MethPrimer 预测人 HCN1 基因 5'上游 2 000 bp 序列中甲基化 CpG 岛。EMBOSS 软件预测结果显示,未发现 CpG 岛。MethPrimer 软件预测结果显示,1 个 CpG 岛分为位于−213~−56 bp 处,长度为 158 bp(图 10)。

附:
Protparam tool http://web.expasy.org/protparam
Protscale tool http://web.expasy.org/protscale
TMHMM http://www.cbs.dtu.dk/services/TMHMM
SignalP 5.0:http://www.cbs.dtu.dk/services/SignalP
NetPhos 3.1:http://www.cbs.dtu.dk/services/NetPhos
PRABI:https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_gor4.html
SMART:http://smart.embl-heidelberg.de/
SWISSMODEL:http://swissmodel.expasy.org/
STRING:https://string-db.org/
DAVID 数据库:http://david.ncifcrf.gov
QuickGo:https://www.ebi.ac.uk/QuickGO/term/
The Human Protein Atlas:https://www.proteinatlas.org/
Compartments:https://compartments.jensenlab.org/
UCSC:https://genome.ucsc.edu/
Neural Network Promoter Prediction:http://www.fruitfly.org/seq_tools/promoter.Html
Promoter 2.0:http://www.cbs.dtu.dk/services/Promoter/
TSSG:http://linux1.softberry.com/berry.phtml?topic=tssg&group=programs&subgroup=promoter
Proscan:https://www-bimas.cit.nih.gov/molbio/proscan/
AliBaba2.1:http://gene-regulation.com/pub/programs/alibaba2/index.html
PROMO:http://alggen.lsi.upc.es/
JASPAR:http://jaspar.genereg.net/
CONREAL:http://conreal.niob.knaw.nl/
EMBOSS:http://www.ebi.ac.uk/Tools/seqstats/emboss_cpgplot/
MethPrimer:http://www.Urogene.org/cgi-bin/methprimer/methprimer.cgi
SNP 软件:http://compbio.cs.queensu.ca/F-SNP/)
SNP Function Prediction:http://snpinfo.niehs.nih.gov/snpinfo/snpfunc.htm
Genecopoeia:http://www.genecopoeia.com/
Blast:https://blast.ncbi.nlm.nih.gov/Blast.cgi
3 讨论
HCN 通道是一类独特的电压门控离子通道,由四个同源或者异源的亚基组成,主要是转运钾离子,在一定程度也能够转运钠离子,其在电位超级化时被激活,在负电位状态下能够持续保持开放,当与 cAMP 结合时,其开放状态增强。HCN 通道能够在心脏及大脑中传导一种内向的去极化电流,分别称为 If('funny' current)和 Ih('hyperpolarization-activated' current)[23]。HCN 通道在神经系统中广泛表达,其与神经元兴奋性和神经网络活动密切相关,HCN 通道的功能障碍会引起一系列的相关疾病,如心律失常、癫痫和神经性疼痛等。因此对 HCN 通道的进一步研究对于疾病的治疗具有重要意义[24]。
利用 NCBI 公共数据库获取不同物种 HCN1 蛋白的氨基酸序列,同源度比对分析发现人 HCN1 与其他哺乳动物的一致性差异性较小,说明人 HCN1 基因与哺乳动物其他物种的同源基因在进化过程中保守性高。HCN1 蛋白是位于质膜上不稳定的亲水性蛋白,存在典型的跨膜,通过 String 数据库对 HCN1 相互作用的蛋白进行预测分析,得到了 HCN1 蛋白质相互作用的前 10 个蛋白质(HCN2、HCN4、PEX5L、MARCH7、KCTD3、GNAT3、SHKBP1、KCNQ2、FLNA、NEDD4L),其中 HCN2 和 HCN4 是 HCN 通道的两个亚型,在中枢神经系统中,HCN 通道分布并不一致,HCN1 和 HCN2 表达最丰富,而 HCN4 通道在中枢神经系统中表达较少。HCN1 主要在新皮层、海马、小脑皮层和脑干中表达最多。HCN2 几乎在整个大脑中均有表达,表达最多为丘脑、外侧膝状体和脑干核团。HCN4 与 HCN1 表达有关,主要表达在丘脑各个核团、基底节和僵核[25]。HCN 通道在新皮层和海马椎体神经元中,主要分布在远端轴突[26],调控轴突的兴奋和突触的网络联系,海马、小脑和中脑中间神经元,胞体和轴突均有分布,用于维持膜的稳定性和神经递质的传递,这种不同的表达和分布有助于完成 HCN 的生理功能[27]。细丝蛋白(Filamin A,FLNA)是一种能够与肌动蛋白交联结合,进而稳定细胞骨架的蛋白质。现有研究表明其在大脑发育的早期阶段广泛表达,在大脑组织结构和神经元迁移中扮演着重要的角色[28]。有研究表明 FLNA 在调控神经元 HCN1 的表达起到重要作用,并在神经元的生理功能发挥重要作用,其通过动力依赖机制选择性地内化 HCN1 型通道,进而导致 Ih 密度降低。KCTD3 是 KCTD 蛋白质家族的一员,使 HCN3 相互作用蛋白,其在脑和一些非神经元组织中广泛表达,在大脑特定区域如下丘脑与 HCN3 共表达,KCTD3 与 HCN3 特异性结合,导致 HCN3 通道在细胞表面的表达及电流密度发生明显的上调[29]。PEX5L 是 HCN 通道的结合蛋白,能够调节其细胞表面表达和环核苷酸依赖性。这些蛋白参与的信号通路主要是参与 cAMP 信号通路及离子转运过程,在电压门控离子通道超家族中,HCN 通道主要是通过 cAMP 直接结合其环核苷酸结合域(CNBD)来调控的,通过 CNBD 构象的改变,cAMP 与环核苷酸结合,增加了超极化通道的开放概率[30]。已经构建出 cAMP 对 HCN 抑制的动物模型,未连接 cAMP 的 CSD 区可抑制 S6 活动,并且限制内源性电压活动。当 cAMP 结合 CNBD 释放 CSD 时,促进 HCN 通道开放。使 HCN1 和 HCN3 CSD 活性增高。同样,cGMP 和 cCMP 也能通过类似的方式调节 HCN 通道的相关亚型[31]。启动子是 RNA 聚合酶识别、结合和开始转录的一段 DNA 序列,目前认为启动子一般位于转录起始点附近,通过启动子分析软件对人 HCN1 基因 5'上游 2 000 bp 序列进行分析,预测存在 3 个潜在的启动子区。在基因表达调控网络中,转录因子是通过结合特异性 DNA 序列控制遗传信息从 DNA 到信使 RNA 的转录速率的蛋白,转录因子可通过修饰(甲基化、去甲基化、乙酰化、去乙酰化等修饰)与启动子进行互作结合调控,产生促进或是抑制的效果。利用 AliBaba2.1 和 PROMO 在 HCN1 基因启动子区预测到成百个转录因子结合位点,被 2 种软件同时预测到且结合位置一致的转录因子有 19 种,这些转录因子存在的概率比较高,对于后续对相关转录因子的验证中具有重要意义。这些预测不仅为 HCN1 的已知功能提供了参考,同时也提示多种转录因子调节 HCN1 的表达。本研究通过 MethPrimer 在线软件预测 HCN1 基因启动子区存在一个 CpG 岛。启动子的转录过程会受到 CpG 岛甲基化的影响,通过阻碍转录因子对结合位点的识别,进而使基因的表达下降[32]。DNA 甲基化是一种 DNA 的天然修饰方式。在真核生物中,甲基化只发生在胞嘧啶第 5 位的碳原子上,由 DNA 甲基转移酶(DNA methylation transferase,DNMT)所催化,以 S-腺苷甲硫氨酸(S-adenosylmethionine,SAM)作为甲基供体,将甲基转移到胞嘧啶上,生成 5-甲基胞嘧啶的一种反应。在哺乳动物中,DNA 甲基化主要发生在 CpG 双核苷酸序列的胞嘧啶上,由于启动子区 CpG 序列较常见,一般以启动子甲基化最为重要。DNA 甲基化虽然未改变核苷酸顺序及其组成,但可在转录水平,尤其是转录起始阶段调控基因的表达。在真核细胞中,某些转录因子特异性的结合位点中有 CpG,当这些位点出现高甲基化时,引起启动子和转录因子结合降低,从而降低基因转录和表达。真核生物启动子是一段位于结构基因 5′端上游区的 DNA 序列,能活化 RNA 聚合酶使之与模板 DNA 准确地结合并具有转录起始的特异性[33]。
目前研究主要是有关 HCN1 在疾病发生过程中的表达变化,本研究通过系统分析 HCN1 的表达、蛋白质相关信息和参与的生理功能等对深入研究其对机体发育及其在癫痫等疾病的发生发展中的作用具有重要意义。
超极化激活环核苷酸门控通道(Hyperpolarization activated cyclic nucleotide gated channel,HCN)属于电压门控型离子通道,迄今为止发现有四个亚型:HCN1-HCN4[1]。HCN1 和 HCN2 的表达存在时空特异性,并受严格的调控。中枢神经系统主要表达 HCN1 和 HCN2,心肌细胞主要表达 HCN4[2]。HCN 通道既参与所在组织的正常生理功能,也与所在组织的病理状态密切相关。神经损伤引起的神经源性疼痛常可检测到 HCN1 表达增加,肥厚性心肌病和终末期心力衰竭等常检测到心室肌细胞 HCN4 及 HCN2 mRNA 表达增加[1]。研究发现,在伴海马硬化性内侧颞叶癫痫(Mesial temporal lobe epilepsy with hippocampus sclrosis,MTLE-HS)大鼠模型中,大脑皮质和海马 HCN1 和 HCN2 表达明显下调,且这种下调可持续较长时间[3]。本课题组前期通过体外实验发现,MTLE-HS 大鼠模型 HCN1 和 HCN2 在不同时期表达均呈下降;MTLE-HS 大鼠模型、人外周血和人海马手术标本中 HCN1 和 HCN2 启动子甲基化水平升高及基因的蛋白水平表达下降,提示表观遗传学在调控 HCN 表达中的重要作用,可能是导致 MTLE-HS 患者 HCN 下调的机制之一。近年来,癫痫致病基因的转录调控得到了越来越多的重视,转录因子通过对基因的转录调控作用参与癫痫的发病机制,HCN1 和 HCN2 基因启动子及其转录调控元件的异常调控很可能是导致病理情况下 HCN 表达异常的原因。然而,目前对于 HCN 基因自身的转录调控及其分子机制仍不明确,在 NCBI 的数据库中也尚未记录人 HCN1 基因启动子序列,对 HCN1 启动子进行生物信息学分析亦未见报道。因此,为了系统地分析 HCN1 基因及其编码蛋白的性质及功能,本研究通过生物信息学方法进行预测分析,为深入研究基因的功能及其在癫痫等相关疾病的发病机制提供理论支持。
1 资料与方法
1.1 资料来源
人(Homo sapiens,O60741),黑猩猩(Pan paniscus,A0A2R9C401),马(Equus caballus,F7BZH9),猪(Sus scrofa,I3LEM3),牛(Bos taurus,E1BM97),狗(Canis lupus familiaris,F1PLK3),褐家鼠(Rattus norvegicus,Q9JKB0),小鼠(Mus musculus,O88704),鸡(Gallus gallus,F1N9K1),热带爪蟾(Xenopus tropicalis,F6YMQ2)蛋白质序列均由 Uniprot 获得;人 HCN1 基因及其上游的 2 000 bp 序列由 NBCI 及 UCSC 数据库获得。
1.2 方法
① 从 Genbank 及 Uniprot 数据库下载人及其他物种的 HCN1 的基因和蛋白序列;② 利用 DNAMAN 8.0 软件对物种的蛋白序列进行同源性比对,并用 MEGA 5.10 进行系统进化分析;③ 应用在线软件 ProtParam、ProtScale 和 TMHMM 程序分析 HCN1 蛋白的相对分子质量、氨基酸组成、等电点、原子组成、稳定性、半衰期、疏水性和跨膜区,采用 SignalP 5.0 软件预测 HCN1 蛋白是否含有信号肽。利用 NetPhos 3.1 软件对 HCN1 蛋白进行磷酸化位点分析,及 cNLS-mapper 预测核定位序列;④ 采用 SMART、SWISSMODEL、Swiss-PdbViewer 和 Pymol 工具分析蛋白质的功能域、二级结构和三级结构;⑤ 应用 Compartments 在线软件、The Human Protein Atlas 数据库、QuickGO 2 数据库和 Cytoscape 进行基因本体论、信号通路及蛋白互作分析;⑥ 采用 Neural Network Promoter Prediction、Promoter 2.0 和 TSSG 在线软件预测人 HCN1 基因 5'调控区中潜在的启动子区,并进行比较分析,参数设置采用默认值;⑦ 利用在线软件 AliBaba2.1 和 PROMO 对人 HCN1 基因 5'调控区转录因子结合位点进行预测,并进行统计分析,筛选出共同的转录因子;⑧ 采用 EMBOSS 和 MethPrimer 在线软件预测人 HCN1 基因启动子区 CpG 岛。
2 结果
2.1 HCN1 蛋白的生物信息学分析
2.1.1 人 HCN1 蛋白的同源性分析
人 HCN1 基因位于 5 号染色体的短臂上(5p12),编码 890 个氨基酸,具体位置为 chr5:45254948-45696380,包含 8 个外显子。利用 DNAMAN 8.0 软件对 10 个物种的蛋白序列进行同源性比对发现,人 HCN1 蛋白与黑猩猩、马、猪、牛、狗、褐家鼠、小鼠、鸡和热带爪蟾中同源蛋白的相似度分别为 96.74%、96.74%、96.07%、95.84%、92.62%、91.87%、91.87%、85.96% 和 75.62%。用 MEGA7 软件[4]中基于序列同源性的邻接法(Neighbor-joining,NJ)构建 HCN1 蛋白遗传进化关系树(图 1),从进化树中可观察到,在进化过程中,人与黑猩猩的亲缘关系最近。小鼠与褐家鼠的亲缘关系较近,聚为一类。其他物种的亲缘关系都较远。不同物种 HCN1 蛋白进化距离分析结果显示,人与黑猩猩的遗传距离最小,为 0.019;与热带爪蟾的进化关系最远,遗传距离为 0.182(表 1)。人 HCN1 蛋白在哺乳动物的同源蛋白相似度比较中均>90%,可见该蛋白序列保守性较高。


2.1.2 人 HCN1 蛋白的理化性质分析
采用在线软件 ProtParam[5]分析 HCN1 蛋白的理化性质,结果显示该蛋白由 890 个氨基酸组成,相对分子质量 98 796.00,等电点(pI):8.63,分子式:C4398H6889N1203O1298S44,总原子数:13832;带负电荷的氨基酸残基(谷氨酸+天冬氨酸):78 个,带正电荷的氨基酸残基(赖氨酸+精氨酸):85 个。HCN1 蛋白在哺乳动物的半衰期为 30 h,不稳定系数(II):50.88,根据不稳定系数的判断标准[6]:<40 被认为是稳定,>40 为不稳定,推定 HCN1 蛋白属于不稳定蛋白。
2.1.3 人 HCN1 蛋白的亲水性/疏水性分析
利用 ProtScale[5]程序对人 HCN1 蛋白的亲疏水性进行在线分析,基于 K-D 法的蛋白质疏水性,分值>0 为疏水性氨基酸,<0 为亲水性氨基酸,结果见图 2;其中最大值是第 151 位的异亮胺酸(Score 2.900),是疏水性最强的位点,最小值是第 408 位的谷氨酰胺(Score: -3.322),是亲水性最强的位点,人 HCN1 蛋白中 882 个氨基酸(5~886),有 61.11%(539 个)氨基酸分布在<0 的区域,38.89%(343 个)氨基酸分布在>0 的区域,表明人 HCN1 蛋白存在明显的亲水域,属亲水性蛋白质。这一结果与 Prot Param 程序分析得出的结构一致:HCN1 蛋白脂肪族氨基酸指数 68.06,总的亲水性平均系数(GRAVY)为−0.273,显示该蛋白为亲水蛋白质。

2.1.4 人 HCN1 蛋白的信号肽及核定位序列预测
利用信号肽预测服务器 SignalP5.0[7]预测人 HCN1 蛋白的信号肽,预测的结构见图 3,通过程序计算得出 C、Y、S 的值均为 0,通过这些数据可以得出人 HCN1 蛋白无信号肽(likelihood:0.003)。通过核定位序列预测系统 cNLS-mapper[8]对其进行预测分析 HCN1 蛋白没有核定位序列,据文献报道,当 cNLS-mapper 中 cut-off 值为 8~10 时,表明蛋白质专一定位于细胞核;当 cut-off 值为 7 或 8 时,部分定位于细胞核;当 cut-off 值为 3~5 时,定位于核内和胞浆内;当 cut-off 值为 1~2 时,表明定位于胞浆内[9]。

2.1.5 HCN1 蛋白的跨膜区预测与分析
使用 TMHMM[10]程序进行预测,通过计算得到图 4,结果显示 890 个氨基酸残基存在 2 个跨膜区,该蛋白 168~372 位氨基酸位于细胞内,145~167 和 373~395 位氨基酸形成 2 个典型的跨膜螺旋区,1~144 和 396~890 位氨基酸位于细胞外。

2.1.6 HCN1 蛋白的磷酸化位点分析
磷酸化及去磷酸化在真核生物的细胞分裂、信号转导等过程中有重要的作用。利用 NetPhos3.1[11]分析 HCN1 蛋白的磷酸化位点,结果见图 5。通过分析发现该蛋白可能含有 100 个磷酸化位点,丝氨酸磷酸化位点 60 个;苏氨酸磷酸化位点 31 个,酪氨酸磷酸化位点 9 个。

2.1.7 人 HCN1 蛋白二级结构分析
利用 SMART[12]在线软件对人 HCN1 蛋白的结构域进行分析,结果显示,该蛋白在 98~141、142~405 和 475~591 位氨基酸处分别分布有 Pfam:Ion_trans_N,Pfam:Ion_trans 和 cNMP(Cyclic nucleotide-monophosphate binding domain)结构域(图 6)。通过网站 Prabi GOR IV[13]对人 HCN1 蛋白的二级结构进行预测,结果显示该蛋白二级结构的主要类型为 α-螺旋(alpha helix),共 260 个(29.21%),无规则卷曲(random coil)456 个(51.24%),延伸链(extended strand)174 个(19.55%)。二级结构分布情况见图 7。

粉色(192~216 位氨基酸)为 low complexity 区域
Figure6. Protein domain prediction of human HCN1Pink(192~216)is low complexity region

蓝色为 α-螺旋,红色为延伸链,玫红色为无规则卷曲
Figure7. Secondary structure prediction of human HCN1Blue is α-helix, red is extended chain, rose red is irregular curl
2.1.8 人 HCN1 蛋白三级结构分析
本研究基于 Swiss-Mode 网站采用同源模建法分析人类 HCN1 蛋白的三级结构,SwissModel[14]采用同源建模法可预测蛋白的三级结构及相关参数。因此在 SwissModel 中提交人 HCN1 氨基酸序列,得到 1 个预测结果,结果见图 8(GMQE:0.66;QMEAN:-0.97;Template:6uqf.1.A;Seq Identity:99.37%;Coverage:94~635)。

红色为 α-螺旋,绿色为无规则卷曲,黄色为 β-转角
Figure8. Tertiary structure prediction of human HCN1Red is α-helix, green is irregular curl, yellow is β-turn
2.1.9 人 HCN1 蛋白亚细胞定位、组织表达特异性与 GO 分析
通过 Compartments 在线软件进行亚细胞定位分析,结果显示,HCN1 主要分布于质膜中(Evidence:31/32)。在 The Human Protein Atlas 数据库中的结果表明,HCN1 mRNA 在人体大多数组织均有表达,脑组织的表达量最高。利用 QuickGO 2 对人 HCN1 蛋白进行基因本体注释(Gene ontology,GO)发现,该蛋白位于质膜中(GO:0005886),与亚细胞定位结果一致;分子功能表现为与 cAMP 结合(GO:0030552)、电压门控离子通道活性(GO:0005244),参与细胞对 cAMP 的反应过程(GO:0071320)和钾离子的跨膜运输(GO:0071805)。
2.1.10 蛋白相互作用
使用 String 11.0[15]对人 HCN1 进行蛋白质相互作用预测,置信度设置为 0.400,数量限制为 10 个以内,构建人 HCN1 蛋白相互作用网络。结果显示,与人 HCN1 蛋白可能存在相互作用的有 10 个蛋白(图 9),其名称及得分见表 2,包括 HCN2、HCN4、PEX5L、MARCH7、KCTD3、GNAT3、SHKBP1、KCNQ2、FLNA、NEDD4L。人 HCN1 蛋白及其相互作用蛋白的 GO 分析及信号转导通路见表 3。



2.2 HCN1 启动子的生物信息学分析
启动子区预测和分析参数设置:Neural Network Promoter Prediction[16]启动子阈值设为 0.8,Promoter 2.0[17]和 TSSG[18]采用默认值。在 UCSC 数据库中获得人 HCN1 基因 5'上游−1~−2 000 bp 的序列,用 3 种不同的在线软件对2 000 bp 序列进行潜在的启动子区预测分析,TSSG 未发现启动子区,余结果见表 4。将人 HCN1 基因 5'上游 2 000 bp 序列与 Genecopoeia 网站查询到的人 HCN1 基因启动子序列 HPRM49983(产品编号)用 BLAST 工具作全序列对比,发现两者的一致性为 51%。HPRM49983 全 1289 bp,转录起始位点(TSS)位于 1 285 bp 的 C 碱基处。HCN1 基因 5'上游 2 000 bp 序列的 979~2 000 bp 与 HPRM49983 序列完全一致。由此推测 HCN1 基因启动子位于 5'上游 1 100 bp 序列内。

2.3 TATA 盒、GC 盒和 CAAT 盒的模序识别
CAAT 盒、TATA 盒和 GC 盒的模序识别可通过在 HCN1 基因 5'调控区序列上是否发现相应特征序列来实现。TATA 盒序列格式为 TATAWAW(W 代表 A 或 T);GC 盒序列格式为 GGGCGG; CAAT 盒序列格式为 CCAAT。通过查 TATA 盒、GC 盒和 CAAT 盒的相应特征序列发现,人 HCN1 基因 5'调控区有 1 个 CAAT 盒及 1 个 TATA 盒,分别位于 1 849~1 853 和 36~41,未查找到 GC 盒。
2.4 启动子区转录因子结合位点预测和分析
为提高转录因子结合位点预测的准确性,用 AliBaba2.1[19]和 PROMO2[20]种软件预测人 HCN1 基因启动子区转录因子结合位点。参数设置:Min mat.Conservation 设为 75%,其它参数为默认值;PROMO 参数设置:Considering factors选择 Only human factors,Considering sites 选择 Only human sites,其它参数为默认值;在 5'上游 1~2 000 bp 内 2 种软件分别预测到 183 和 931 个转录因子结合位点,分别涉及到 67 和 77 种转录因子。被 2 种软件共同预测到且结合位点位置相同的转录因子有 19 种,包括 NF-κB、NF-1、AP-1、TBP、IRF-1、c-Ets-1、Elf-1、HNF-3、HNF-1、YY1、GATA-1、RXR-α、GR、AP-2αA、ENKTF-1、C/EBPβ、C/EBPα、c-Fos 和 c-Jun。
2.5 人 HCN1 基因启动子区甲基化 CpG 岛预测
EMBOSS[21]预测人 HCN1 基因启动子区 CpG 岛。参数设置:CpG 检测含量/期望含量(Obs/Exp)>0.60,C+G 含量百分比> 50%,CpG 岛长度>200 bp。MethPrimer[22]采用默认值。利用在线软件 EMBOSS 和 MethPrimer 预测人 HCN1 基因 5'上游 2 000 bp 序列中甲基化 CpG 岛。EMBOSS 软件预测结果显示,未发现 CpG 岛。MethPrimer 软件预测结果显示,1 个 CpG 岛分为位于−213~−56 bp 处,长度为 158 bp(图 10)。

附:
Protparam tool http://web.expasy.org/protparam
Protscale tool http://web.expasy.org/protscale
TMHMM http://www.cbs.dtu.dk/services/TMHMM
SignalP 5.0:http://www.cbs.dtu.dk/services/SignalP
NetPhos 3.1:http://www.cbs.dtu.dk/services/NetPhos
PRABI:https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_gor4.html
SMART:http://smart.embl-heidelberg.de/
SWISSMODEL:http://swissmodel.expasy.org/
STRING:https://string-db.org/
DAVID 数据库:http://david.ncifcrf.gov
QuickGo:https://www.ebi.ac.uk/QuickGO/term/
The Human Protein Atlas:https://www.proteinatlas.org/
Compartments:https://compartments.jensenlab.org/
UCSC:https://genome.ucsc.edu/
Neural Network Promoter Prediction:http://www.fruitfly.org/seq_tools/promoter.Html
Promoter 2.0:http://www.cbs.dtu.dk/services/Promoter/
TSSG:http://linux1.softberry.com/berry.phtml?topic=tssg&group=programs&subgroup=promoter
Proscan:https://www-bimas.cit.nih.gov/molbio/proscan/
AliBaba2.1:http://gene-regulation.com/pub/programs/alibaba2/index.html
PROMO:http://alggen.lsi.upc.es/
JASPAR:http://jaspar.genereg.net/
CONREAL:http://conreal.niob.knaw.nl/
EMBOSS:http://www.ebi.ac.uk/Tools/seqstats/emboss_cpgplot/
MethPrimer:http://www.Urogene.org/cgi-bin/methprimer/methprimer.cgi
SNP 软件:http://compbio.cs.queensu.ca/F-SNP/)
SNP Function Prediction:http://snpinfo.niehs.nih.gov/snpinfo/snpfunc.htm
Genecopoeia:http://www.genecopoeia.com/
Blast:https://blast.ncbi.nlm.nih.gov/Blast.cgi
3 讨论
HCN 通道是一类独特的电压门控离子通道,由四个同源或者异源的亚基组成,主要是转运钾离子,在一定程度也能够转运钠离子,其在电位超级化时被激活,在负电位状态下能够持续保持开放,当与 cAMP 结合时,其开放状态增强。HCN 通道能够在心脏及大脑中传导一种内向的去极化电流,分别称为 If('funny' current)和 Ih('hyperpolarization-activated' current)[23]。HCN 通道在神经系统中广泛表达,其与神经元兴奋性和神经网络活动密切相关,HCN 通道的功能障碍会引起一系列的相关疾病,如心律失常、癫痫和神经性疼痛等。因此对 HCN 通道的进一步研究对于疾病的治疗具有重要意义[24]。
利用 NCBI 公共数据库获取不同物种 HCN1 蛋白的氨基酸序列,同源度比对分析发现人 HCN1 与其他哺乳动物的一致性差异性较小,说明人 HCN1 基因与哺乳动物其他物种的同源基因在进化过程中保守性高。HCN1 蛋白是位于质膜上不稳定的亲水性蛋白,存在典型的跨膜,通过 String 数据库对 HCN1 相互作用的蛋白进行预测分析,得到了 HCN1 蛋白质相互作用的前 10 个蛋白质(HCN2、HCN4、PEX5L、MARCH7、KCTD3、GNAT3、SHKBP1、KCNQ2、FLNA、NEDD4L),其中 HCN2 和 HCN4 是 HCN 通道的两个亚型,在中枢神经系统中,HCN 通道分布并不一致,HCN1 和 HCN2 表达最丰富,而 HCN4 通道在中枢神经系统中表达较少。HCN1 主要在新皮层、海马、小脑皮层和脑干中表达最多。HCN2 几乎在整个大脑中均有表达,表达最多为丘脑、外侧膝状体和脑干核团。HCN4 与 HCN1 表达有关,主要表达在丘脑各个核团、基底节和僵核[25]。HCN 通道在新皮层和海马椎体神经元中,主要分布在远端轴突[26],调控轴突的兴奋和突触的网络联系,海马、小脑和中脑中间神经元,胞体和轴突均有分布,用于维持膜的稳定性和神经递质的传递,这种不同的表达和分布有助于完成 HCN 的生理功能[27]。细丝蛋白(Filamin A,FLNA)是一种能够与肌动蛋白交联结合,进而稳定细胞骨架的蛋白质。现有研究表明其在大脑发育的早期阶段广泛表达,在大脑组织结构和神经元迁移中扮演着重要的角色[28]。有研究表明 FLNA 在调控神经元 HCN1 的表达起到重要作用,并在神经元的生理功能发挥重要作用,其通过动力依赖机制选择性地内化 HCN1 型通道,进而导致 Ih 密度降低。KCTD3 是 KCTD 蛋白质家族的一员,使 HCN3 相互作用蛋白,其在脑和一些非神经元组织中广泛表达,在大脑特定区域如下丘脑与 HCN3 共表达,KCTD3 与 HCN3 特异性结合,导致 HCN3 通道在细胞表面的表达及电流密度发生明显的上调[29]。PEX5L 是 HCN 通道的结合蛋白,能够调节其细胞表面表达和环核苷酸依赖性。这些蛋白参与的信号通路主要是参与 cAMP 信号通路及离子转运过程,在电压门控离子通道超家族中,HCN 通道主要是通过 cAMP 直接结合其环核苷酸结合域(CNBD)来调控的,通过 CNBD 构象的改变,cAMP 与环核苷酸结合,增加了超极化通道的开放概率[30]。已经构建出 cAMP 对 HCN 抑制的动物模型,未连接 cAMP 的 CSD 区可抑制 S6 活动,并且限制内源性电压活动。当 cAMP 结合 CNBD 释放 CSD 时,促进 HCN 通道开放。使 HCN1 和 HCN3 CSD 活性增高。同样,cGMP 和 cCMP 也能通过类似的方式调节 HCN 通道的相关亚型[31]。启动子是 RNA 聚合酶识别、结合和开始转录的一段 DNA 序列,目前认为启动子一般位于转录起始点附近,通过启动子分析软件对人 HCN1 基因 5'上游 2 000 bp 序列进行分析,预测存在 3 个潜在的启动子区。在基因表达调控网络中,转录因子是通过结合特异性 DNA 序列控制遗传信息从 DNA 到信使 RNA 的转录速率的蛋白,转录因子可通过修饰(甲基化、去甲基化、乙酰化、去乙酰化等修饰)与启动子进行互作结合调控,产生促进或是抑制的效果。利用 AliBaba2.1 和 PROMO 在 HCN1 基因启动子区预测到成百个转录因子结合位点,被 2 种软件同时预测到且结合位置一致的转录因子有 19 种,这些转录因子存在的概率比较高,对于后续对相关转录因子的验证中具有重要意义。这些预测不仅为 HCN1 的已知功能提供了参考,同时也提示多种转录因子调节 HCN1 的表达。本研究通过 MethPrimer 在线软件预测 HCN1 基因启动子区存在一个 CpG 岛。启动子的转录过程会受到 CpG 岛甲基化的影响,通过阻碍转录因子对结合位点的识别,进而使基因的表达下降[32]。DNA 甲基化是一种 DNA 的天然修饰方式。在真核生物中,甲基化只发生在胞嘧啶第 5 位的碳原子上,由 DNA 甲基转移酶(DNA methylation transferase,DNMT)所催化,以 S-腺苷甲硫氨酸(S-adenosylmethionine,SAM)作为甲基供体,将甲基转移到胞嘧啶上,生成 5-甲基胞嘧啶的一种反应。在哺乳动物中,DNA 甲基化主要发生在 CpG 双核苷酸序列的胞嘧啶上,由于启动子区 CpG 序列较常见,一般以启动子甲基化最为重要。DNA 甲基化虽然未改变核苷酸顺序及其组成,但可在转录水平,尤其是转录起始阶段调控基因的表达。在真核细胞中,某些转录因子特异性的结合位点中有 CpG,当这些位点出现高甲基化时,引起启动子和转录因子结合降低,从而降低基因转录和表达。真核生物启动子是一段位于结构基因 5′端上游区的 DNA 序列,能活化 RNA 聚合酶使之与模板 DNA 准确地结合并具有转录起始的特异性[33]。
目前研究主要是有关 HCN1 在疾病发生过程中的表达变化,本研究通过系统分析 HCN1 的表达、蛋白质相关信息和参与的生理功能等对深入研究其对机体发育及其在癫痫等疾病的发生发展中的作用具有重要意义。