在线孟德尔人类遗传数据库(OMIM)是描述人类遗传病及其相关基因的知识库,其词条包括疾病的临床特征、基因连锁分析、染色体定位以及动物模型等,是研究疾病与基因关系的重要依据。疾病表型的相似性可能提示分子之间的相互作用。进行表型比对将有助于预测疾病候选基因以及分析分子之间的关系。OMIM数据库采用文本描述疾病表型,并不适用于计算机分析。对OMIM数据进行标准化对于大规模比对和分析疾病的表型数据、建立表型与基因的对应关系具有重要的意义。研究者近期通过引入标准的医学语言系统,采用文本挖掘中的词频-逆文档频率技术以及用于文档分类的余弦定理方法,结合基因本体论及其比对方法,推动了OMIM数据挖掘的快速发展。本文总结了近年来OMIM数据标准化、表型相似性度量及数据挖掘研究的主要成果,并对其发展趋势进行了预测。
引用本文: 李建华, 李哲人, 康雁, 李岭. 在线孟德尔人类遗传数据库数据挖掘的研究进展. 生物医学工程学杂志, 2014, 31(6): 1400-1404. doi: 10.7507/1001-5515.20140265 复制
引言
在线人类孟德尔遗传(Online Mendelian Inheritance in Man,OMIM)[1]是一个描述人类遗传病及其基因研究的知识库。1966年,该数据库被首次公布。自1995年起,美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)在因特网上发布OMIM,由约翰霍普金斯大学负责数据收集、整理、编辑和校对,并随时更新。OMIM中的大多数词条均包含临床概要(clinical synopsis,CS),用以描述疾病的症状和体征[即表型 (phenotype)]。临床概要采用结构化文本描述,又分为类型、亚类和特征三部分。类型主要基于器官系统和临床发现进行划分,亚类则是对类型的细分,如呼吸系统的亚类包括喉、气管、肺等。因此,声带麻痹的结构化描述为:呼吸系统 | 喉 | 声带麻痹。OMIM词条还包括相关基因的连锁分析、染色体定位及动物模型等信息,并附有参考文献。OMIM数据库支持在线检索,具有全面、准确和及时的特点,已成为研究疾病与基因关系的权威信息来源。对于OMIM数据的挖掘最早是人工的。随着文本挖掘技术逐渐成熟,OMIM数据的挖掘取得了快速发展。以下我们将对这方面的研究成果进行回顾。
1 OMIM数据挖掘的内容与意义
迄今为止,OMIM数据挖掘的主要内容为疾病表型与基因的关联。由于大多数疾病均为多个基因共同作用的结果,通过分子实验来确定致病基因费力而耗时,而新兴的生物信息挖掘技术则可以在实验前筛选候选基因。在OMIM数据挖掘中,这可以通过疾病表型相似性比较来实现。
基因-表型之间的对应关系是分子生物学研究的核心问题。传统的研究聚焦于基因及蛋白质数据(字符串)的相似性。著名的BLAST、CLUSTAL等均为这方面的成熟算法。通过局部相似性比较,可以找出DNA或氨基酸序列相似的分子,而这种相似性又可能提示共同的进化起源以及/或功能的相似性。
对于OMIM所收录的疾病表型数据进行比对分析具有重要的意义。表型的相似性可能提示不同的疾病所共有的分子基础。对于分子基础尚不明确的疾病,则有助于预测其候选基因。利用表型相似性所预测的基因与蛋白质功能之间的关系,可以指导设计分子实验。此外,对于表型相似的疾病,还可以探索使用相同或相似的药物进行治疗。
对OMIM数据进行挖掘的主要方法包括:① 对疾病表型进行标准化;② 对标准化的数据进行相似性比较;③ 结合基因及蛋白质数据库筛选候选基因。其中前两步难度较大,在很大程度上可影响最后的预测结果。
2 数据标准化
在确定候选基因时,需要借助已知的表型与基因的关联,通过表型比对预测疾病的候选基因。因此,对表型进行标准化是OMIM挖掘首先需要解决的问题。
OMIM数据为手工录入的自由文本,存在单/复数、同义词、否定词及误输入等问题。在进行挖掘时,研究者主要采用3种方法将描述表型的词汇(搜索的关键词)映射为标准词表,这些包括医学主题词(Medical Subject Headings,MeSH)[2]、统一医学语言系统(Unified Medical Language System,UMLS)[3]和人类表型本体论(Human Phenotype Ontology,HPO)[4]。HPO是人类疾病表型异常的标准化词汇表,最初仅采用OMIM的词汇,最近亦开始纳入来自医学文献的信息,其中包括大约10 000个词项。HPO是手工创建的表型词汇,其结构特点为有向无环图。需要指出的是,MeSH和UMLS索引词并非专用于人类遗传病及其表型的描述,而HPO的优势之一则是其词项和结构均基于医学知识而非文本挖掘系统。
在上述三种方法中,MeSH和UMLS被采用较多,而HPO尚处于发展时期。MeSH的不足是并未包含OMIM中的全部表型。Beck等[5]将MeSH中的疾病与HPO中的症状和体征相结合,以推断疾病表型异常。UMLS在通过MetaMap Transfer工具进行转换时可能产生一定数量的错误。Cohen等[6]在改进的UMLS方法基础上,发现UMLS挖掘的表型数量为HPO方法的3倍。Oellrich等[7-8]提出将HPO与哺乳动物表型本体论(Mammalian Phenotype Ontology,MPO)进行语义相似性比较,改进疾病基因预测。最近已出现针对特定系统的HPO研究,如骨骼系统[9]、神经系统[10]等。
3 表型相似性的度量
被标准化之后,每种疾病就可以表示为标准词汇构成的集合或特征向量[2]。例如,用2010年10月公布的MeSH词表对疾病表型标准化,取其中解剖学和疾病症状部分的词汇共13 721个,然后在各OMIM记录逐一搜索是否存在上述词汇。每种疾病可表示为一个不超过13 721个标准词汇构成的集合。若标准词汇出现置1,不出现置0,每种疾病则将对应一个具有13 721维的特征向量。常用于衡量表型相似性的方法大致分为3种。在对OMIM进行文本挖掘时,余弦相似度使用最为广泛。而在表型结构化后,Jaccard系数法较容易计算,应用也较多。许多研究者已将基因本体论(Gene Ontology,GO)的比对方法引入疾病表型比较。
3.1 夹角余弦法[2 ]
在OMIM挖掘中,两种疾病的表型相似性可通过特征向量对之间的夹角余弦值来度量。一般采用文本挖掘中的词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)技术修正特征向量。两种疾病x和y的表型相似性Sim(x,y)计算如下:
$Sim\left( x,y \right)=\frac{\sum\limits_{i=1}^{l}{{{x}_{i}}{{y}_{i}}}}{\sqrt{\sum\limits_{i=1}^{l}{{{x}_{i}}^{2}}}~\sqrt{\sum\limits_{i=1}^{l}{{{y}_{i}}^{2}}}}$ |
3.2 Jaccard系数法
计算两种表型的交集与并集相比,取值范围为0~1。Hwang等[11]采用HPO来表示表型,疾病P1和P2的表型相似度计算如下:
$Si{{m}_{HPO}}=\frac{\left| {{P}_{1}}\cap {{P}_{2}} \right|}{\left| {{P}_{1}}\cup {{P}_{2}} \right|}$ |
对于表型的重要性还可以进行加权处理,称为加权Jaccard系数法(weighted Jaccard index)[12],其中P、R是两种疾病,Cl(P)=P1,…,Pn和Cl(R)=R1,…,Rm是疾病P和R的本体论描述,IC(x)和IC(y)是表型x和y的信息内容。IC(t)定义如下:
$IC\left( t \right)=-log~P\left( t \right),$ |
P和R的相似性计算方法如下:
$Sim\left( P,R \right)=\frac{\sum\limits_{x\in Cl\left( P \right)\cap Cl\left( R \right)}{IC\left( x \right)}}{\sum\limits_{x\in Cl\left( P \right)\cap Cl\left( R \right)}{IC\left( y \right)}}$ |
3.3 GO相似性比较方法
GO与HPO均为具有多层结构的有向无环图。对于本体论的语义相似性计算亦适用于GO和HPO。在计算语义相似性时,需考虑祖先结点对于子结点相似度的影响。HPO的创建者Robinson等(2008年)利用以下的公式计算两个词项t1、t2之间的相似性:
$Sim({{t}_{1}},{{t}_{2}})=\underset{a\in A({{t}_{1}},{{t}_{2}})}{\mathop{max}}\,-log~p\left( a \right),$ |
其中A(t1,t2)是t1,t2的共同祖先集合。疾病d1对d2的表型相似性为:
$Sim({{d}_{1}}\to {{d}_{2}})=avg\left[ \sum\limits_{s\in {{d}_{1}}}{\underset{t\in {{d}_{2}}}{\mathop{max}}\,}~~Sim\left( s,t \right) \right]$ |
由于上式具有非对称性,疾病d1与d2的表型相似性被定义为:
$Sim({{d}_{1}},{{d}_{2}})=\frac{Sim({{d}_{1}}\to {{d}_{2}})+Sim({{d}_{2}}\to {{d}_{1}})}{2}$ |
最近,Zhang等[13]将GO中语义相似性的比较方法用于HPO,分析并评估了5种方法的有效性。例如,Lin度量方法定义为:
$Si{{m}_{Lin}}({{c}_{1}},{{c}_{2}})=\frac{2Share({{c}_{1}},{{c}_{2}})}{IC({{c}_{1}})+IC({{c}_{2}})},$ |
其中c1和c2为HPO词项,Share(c1,c2)=max{IC(c)},c是c1和c2信息量最大的共同祖先结点。
鉴于OMIM的表型数据所具有的树形结构,在进行比对时可从树根出发(以找出整体相似性),也可从树叶出发(以找出局部相似性),或者在树形结构中找出一致的子树来。在衡量树形结构的整体和局部相似性时,需要考虑改进或提出新的度量方法。
4 阶段性成果
近年来,已有多个小组开发出OMIM的挖掘技术并取得了一些阶段性的成果。
在挖掘技术方面,van Driel等[2]率先提出利用MeSH词表将疾病表型统一化,并采用夹角余弦法来比较不同表型的特征向量,建立了5 000余种疾病的相似矩阵,这为随后的OMIM挖掘奠基了基础。Robinson等[4]提出了基于OMIM的HPO,并尝试对OMIM数据进行标准化。Oti等[14]则讨论了人类表型数据库的生物学一致性,并通过研究不同表型数据库,提出引入Possum数据并利用Orphanet中的特征频度,将OMIM数据高质量地转化为统一的HPO数据。Cohen等[6]利用改进的UMLS映射方法实现了表型聚类及否定词探测,建立了帮助临床诊断的增强型OMIM临床症状查询系统CSI-OMIM。
在研究方面,van Driel等计算了5 000余种疾病表型的相似性矩阵,证明了单基因突变导致的不同的表型具有相当的重叠,并发现随着疾病表型相似值的增加,其共同的基因序列、蛋白质基序、功能注释及已知蛋白质相互作用亦增加。Gefen等[15]集成了OMIM和其他生物医学数据库,用于预测疾病的候选基因并将其按重要性排序。通过对30种新发现的疾病的测试,证实其致病基因全部出现在预测范围的前20%,大多数出现在前10%。这一成果可以简化识别遗传位点所需的繁冗测试。Pathak等[16]针对美国人常见的6种慢性疾病,利用SPARQL查询OMIM及dbSNP数据库,提取疾病-基因-SNP的关系,并通过GeneWiki+进行验证,展示了语义Web技术在多个生物医学数据库协同应用的潜力。Zhang等[3]则利用van Driel等提出的方法构建出疾病的表型网络,建立了表型聚类与基因模块间的关联,有助于理解相似疾病共同的病理生理学基础。王志刚等[17]基于上述方法建立了疾病表型相似性矩阵,用于发现与疾病关联最多的分子通路,可能用于药物研发和疾病治疗。Chen等[18]通过OMIM疾病表型相似网络,预测了疾病与疾病发生、发展密切相关的MicroRNAs。

表 1总结了迄今为止OMIM数据挖掘的主要成果以及相关的在线软件。
5 总结与展望
对OMIM所总结的疾病表型进行挖掘,对于发现致病基因、阐明分子网络具有重要的意义。然而,目前尚无理想的工具对各种挖掘方法进行系统评估,对于OMIM的挖掘仍存在以下问题:
(1)需要提高表型描述的规范化程度。OMIM数据的分类依据仍未统一,存在解剖学、生理学以及胚胎发育学概念混用的局面。将OMIM数据转化为MeSH、UMLS或HPO词汇存在一定的困难。对HPO不断进行完善,建成基于HPO的OMIM表型录入标准化,将从数据源头上实现规范化。
(2)需要构建表型本体论-疾病本体论(Disease Ontology)-基因本体论之间的关联。建立一个人类症状-疾病-基因的内部关联数据库,将有助于系统地揭示疾病与基因的关联。
(3)需要从更高的层次描述人类表型相似性与候选基因之间的定性和定量关系。为了更精确地衡量表型的相似性,需要根据实际需要进行不同程度的抽象。这也将有助于理解表型在何种相似度下可揭示基因的共同属性。
(4)实现OMIM数据与基因、蛋白质等多种数据库联合及跨物种比较,实现大规模多源异构数据的有效融合,以揭示表型与基因型之间的关联。
引言
在线人类孟德尔遗传(Online Mendelian Inheritance in Man,OMIM)[1]是一个描述人类遗传病及其基因研究的知识库。1966年,该数据库被首次公布。自1995年起,美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)在因特网上发布OMIM,由约翰霍普金斯大学负责数据收集、整理、编辑和校对,并随时更新。OMIM中的大多数词条均包含临床概要(clinical synopsis,CS),用以描述疾病的症状和体征[即表型 (phenotype)]。临床概要采用结构化文本描述,又分为类型、亚类和特征三部分。类型主要基于器官系统和临床发现进行划分,亚类则是对类型的细分,如呼吸系统的亚类包括喉、气管、肺等。因此,声带麻痹的结构化描述为:呼吸系统 | 喉 | 声带麻痹。OMIM词条还包括相关基因的连锁分析、染色体定位及动物模型等信息,并附有参考文献。OMIM数据库支持在线检索,具有全面、准确和及时的特点,已成为研究疾病与基因关系的权威信息来源。对于OMIM数据的挖掘最早是人工的。随着文本挖掘技术逐渐成熟,OMIM数据的挖掘取得了快速发展。以下我们将对这方面的研究成果进行回顾。
1 OMIM数据挖掘的内容与意义
迄今为止,OMIM数据挖掘的主要内容为疾病表型与基因的关联。由于大多数疾病均为多个基因共同作用的结果,通过分子实验来确定致病基因费力而耗时,而新兴的生物信息挖掘技术则可以在实验前筛选候选基因。在OMIM数据挖掘中,这可以通过疾病表型相似性比较来实现。
基因-表型之间的对应关系是分子生物学研究的核心问题。传统的研究聚焦于基因及蛋白质数据(字符串)的相似性。著名的BLAST、CLUSTAL等均为这方面的成熟算法。通过局部相似性比较,可以找出DNA或氨基酸序列相似的分子,而这种相似性又可能提示共同的进化起源以及/或功能的相似性。
对于OMIM所收录的疾病表型数据进行比对分析具有重要的意义。表型的相似性可能提示不同的疾病所共有的分子基础。对于分子基础尚不明确的疾病,则有助于预测其候选基因。利用表型相似性所预测的基因与蛋白质功能之间的关系,可以指导设计分子实验。此外,对于表型相似的疾病,还可以探索使用相同或相似的药物进行治疗。
对OMIM数据进行挖掘的主要方法包括:① 对疾病表型进行标准化;② 对标准化的数据进行相似性比较;③ 结合基因及蛋白质数据库筛选候选基因。其中前两步难度较大,在很大程度上可影响最后的预测结果。
2 数据标准化
在确定候选基因时,需要借助已知的表型与基因的关联,通过表型比对预测疾病的候选基因。因此,对表型进行标准化是OMIM挖掘首先需要解决的问题。
OMIM数据为手工录入的自由文本,存在单/复数、同义词、否定词及误输入等问题。在进行挖掘时,研究者主要采用3种方法将描述表型的词汇(搜索的关键词)映射为标准词表,这些包括医学主题词(Medical Subject Headings,MeSH)[2]、统一医学语言系统(Unified Medical Language System,UMLS)[3]和人类表型本体论(Human Phenotype Ontology,HPO)[4]。HPO是人类疾病表型异常的标准化词汇表,最初仅采用OMIM的词汇,最近亦开始纳入来自医学文献的信息,其中包括大约10 000个词项。HPO是手工创建的表型词汇,其结构特点为有向无环图。需要指出的是,MeSH和UMLS索引词并非专用于人类遗传病及其表型的描述,而HPO的优势之一则是其词项和结构均基于医学知识而非文本挖掘系统。
在上述三种方法中,MeSH和UMLS被采用较多,而HPO尚处于发展时期。MeSH的不足是并未包含OMIM中的全部表型。Beck等[5]将MeSH中的疾病与HPO中的症状和体征相结合,以推断疾病表型异常。UMLS在通过MetaMap Transfer工具进行转换时可能产生一定数量的错误。Cohen等[6]在改进的UMLS方法基础上,发现UMLS挖掘的表型数量为HPO方法的3倍。Oellrich等[7-8]提出将HPO与哺乳动物表型本体论(Mammalian Phenotype Ontology,MPO)进行语义相似性比较,改进疾病基因预测。最近已出现针对特定系统的HPO研究,如骨骼系统[9]、神经系统[10]等。
3 表型相似性的度量
被标准化之后,每种疾病就可以表示为标准词汇构成的集合或特征向量[2]。例如,用2010年10月公布的MeSH词表对疾病表型标准化,取其中解剖学和疾病症状部分的词汇共13 721个,然后在各OMIM记录逐一搜索是否存在上述词汇。每种疾病可表示为一个不超过13 721个标准词汇构成的集合。若标准词汇出现置1,不出现置0,每种疾病则将对应一个具有13 721维的特征向量。常用于衡量表型相似性的方法大致分为3种。在对OMIM进行文本挖掘时,余弦相似度使用最为广泛。而在表型结构化后,Jaccard系数法较容易计算,应用也较多。许多研究者已将基因本体论(Gene Ontology,GO)的比对方法引入疾病表型比较。
3.1 夹角余弦法[2 ]
在OMIM挖掘中,两种疾病的表型相似性可通过特征向量对之间的夹角余弦值来度量。一般采用文本挖掘中的词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)技术修正特征向量。两种疾病x和y的表型相似性Sim(x,y)计算如下:
$Sim\left( x,y \right)=\frac{\sum\limits_{i=1}^{l}{{{x}_{i}}{{y}_{i}}}}{\sqrt{\sum\limits_{i=1}^{l}{{{x}_{i}}^{2}}}~\sqrt{\sum\limits_{i=1}^{l}{{{y}_{i}}^{2}}}}$ |
3.2 Jaccard系数法
计算两种表型的交集与并集相比,取值范围为0~1。Hwang等[11]采用HPO来表示表型,疾病P1和P2的表型相似度计算如下:
$Si{{m}_{HPO}}=\frac{\left| {{P}_{1}}\cap {{P}_{2}} \right|}{\left| {{P}_{1}}\cup {{P}_{2}} \right|}$ |
对于表型的重要性还可以进行加权处理,称为加权Jaccard系数法(weighted Jaccard index)[12],其中P、R是两种疾病,Cl(P)=P1,…,Pn和Cl(R)=R1,…,Rm是疾病P和R的本体论描述,IC(x)和IC(y)是表型x和y的信息内容。IC(t)定义如下:
$IC\left( t \right)=-log~P\left( t \right),$ |
P和R的相似性计算方法如下:
$Sim\left( P,R \right)=\frac{\sum\limits_{x\in Cl\left( P \right)\cap Cl\left( R \right)}{IC\left( x \right)}}{\sum\limits_{x\in Cl\left( P \right)\cap Cl\left( R \right)}{IC\left( y \right)}}$ |
3.3 GO相似性比较方法
GO与HPO均为具有多层结构的有向无环图。对于本体论的语义相似性计算亦适用于GO和HPO。在计算语义相似性时,需考虑祖先结点对于子结点相似度的影响。HPO的创建者Robinson等(2008年)利用以下的公式计算两个词项t1、t2之间的相似性:
$Sim({{t}_{1}},{{t}_{2}})=\underset{a\in A({{t}_{1}},{{t}_{2}})}{\mathop{max}}\,-log~p\left( a \right),$ |
其中A(t1,t2)是t1,t2的共同祖先集合。疾病d1对d2的表型相似性为:
$Sim({{d}_{1}}\to {{d}_{2}})=avg\left[ \sum\limits_{s\in {{d}_{1}}}{\underset{t\in {{d}_{2}}}{\mathop{max}}\,}~~Sim\left( s,t \right) \right]$ |
由于上式具有非对称性,疾病d1与d2的表型相似性被定义为:
$Sim({{d}_{1}},{{d}_{2}})=\frac{Sim({{d}_{1}}\to {{d}_{2}})+Sim({{d}_{2}}\to {{d}_{1}})}{2}$ |
最近,Zhang等[13]将GO中语义相似性的比较方法用于HPO,分析并评估了5种方法的有效性。例如,Lin度量方法定义为:
$Si{{m}_{Lin}}({{c}_{1}},{{c}_{2}})=\frac{2Share({{c}_{1}},{{c}_{2}})}{IC({{c}_{1}})+IC({{c}_{2}})},$ |
其中c1和c2为HPO词项,Share(c1,c2)=max{IC(c)},c是c1和c2信息量最大的共同祖先结点。
鉴于OMIM的表型数据所具有的树形结构,在进行比对时可从树根出发(以找出整体相似性),也可从树叶出发(以找出局部相似性),或者在树形结构中找出一致的子树来。在衡量树形结构的整体和局部相似性时,需要考虑改进或提出新的度量方法。
4 阶段性成果
近年来,已有多个小组开发出OMIM的挖掘技术并取得了一些阶段性的成果。
在挖掘技术方面,van Driel等[2]率先提出利用MeSH词表将疾病表型统一化,并采用夹角余弦法来比较不同表型的特征向量,建立了5 000余种疾病的相似矩阵,这为随后的OMIM挖掘奠基了基础。Robinson等[4]提出了基于OMIM的HPO,并尝试对OMIM数据进行标准化。Oti等[14]则讨论了人类表型数据库的生物学一致性,并通过研究不同表型数据库,提出引入Possum数据并利用Orphanet中的特征频度,将OMIM数据高质量地转化为统一的HPO数据。Cohen等[6]利用改进的UMLS映射方法实现了表型聚类及否定词探测,建立了帮助临床诊断的增强型OMIM临床症状查询系统CSI-OMIM。
在研究方面,van Driel等计算了5 000余种疾病表型的相似性矩阵,证明了单基因突变导致的不同的表型具有相当的重叠,并发现随着疾病表型相似值的增加,其共同的基因序列、蛋白质基序、功能注释及已知蛋白质相互作用亦增加。Gefen等[15]集成了OMIM和其他生物医学数据库,用于预测疾病的候选基因并将其按重要性排序。通过对30种新发现的疾病的测试,证实其致病基因全部出现在预测范围的前20%,大多数出现在前10%。这一成果可以简化识别遗传位点所需的繁冗测试。Pathak等[16]针对美国人常见的6种慢性疾病,利用SPARQL查询OMIM及dbSNP数据库,提取疾病-基因-SNP的关系,并通过GeneWiki+进行验证,展示了语义Web技术在多个生物医学数据库协同应用的潜力。Zhang等[3]则利用van Driel等提出的方法构建出疾病的表型网络,建立了表型聚类与基因模块间的关联,有助于理解相似疾病共同的病理生理学基础。王志刚等[17]基于上述方法建立了疾病表型相似性矩阵,用于发现与疾病关联最多的分子通路,可能用于药物研发和疾病治疗。Chen等[18]通过OMIM疾病表型相似网络,预测了疾病与疾病发生、发展密切相关的MicroRNAs。

表 1总结了迄今为止OMIM数据挖掘的主要成果以及相关的在线软件。
5 总结与展望
对OMIM所总结的疾病表型进行挖掘,对于发现致病基因、阐明分子网络具有重要的意义。然而,目前尚无理想的工具对各种挖掘方法进行系统评估,对于OMIM的挖掘仍存在以下问题:
(1)需要提高表型描述的规范化程度。OMIM数据的分类依据仍未统一,存在解剖学、生理学以及胚胎发育学概念混用的局面。将OMIM数据转化为MeSH、UMLS或HPO词汇存在一定的困难。对HPO不断进行完善,建成基于HPO的OMIM表型录入标准化,将从数据源头上实现规范化。
(2)需要构建表型本体论-疾病本体论(Disease Ontology)-基因本体论之间的关联。建立一个人类症状-疾病-基因的内部关联数据库,将有助于系统地揭示疾病与基因的关联。
(3)需要从更高的层次描述人类表型相似性与候选基因之间的定性和定量关系。为了更精确地衡量表型的相似性,需要根据实际需要进行不同程度的抽象。这也将有助于理解表型在何种相似度下可揭示基因的共同属性。
(4)实现OMIM数据与基因、蛋白质等多种数据库联合及跨物种比较,实现大规模多源异构数据的有效融合,以揭示表型与基因型之间的关联。