陕西佰美基因股份有限公司

行业新闻

data :  2016-10-08 文章出处 :  http://

基因组中“暗物质”,非编码区的致病变异鉴定工具

 

一个国际团队开发出一种新型计算工具,能够更快速、更准确地识别非编码区的致病变异。这种方法称为Genomiser,建立在Exomiser软件的基础上。Exomiser软件是由Charité医学遗传学与人类遗传学研究所计算生物学和生物信息学小组的研究人员开发的,可以识别、注释、筛选和排序编码区可能的因果变异。该研究结果近期发表在《American Journal of Human Genetics》上,Genomiser使用一些与Exomiser相同的方法,对少于25个核苷酸的小型非编码变异进行评分,并将评分与等位基因频率、调控序列和表型相关性等相结合,预测致病性。

文章作者之一,杰克逊基因组医学实验室计算生物学教授Peter Robinson说,更好地理解非编码区发生的改变非常关键。目前大约25%~40%的孟德尔疾病疑似病人的诊断主要侧重于基因组编码区,忽略了位于非编码区的重要变异。

Genomiser将变异分析与表型分析相结合,能更好地预测非编码区变异

Genomiser使用一种名为ReMM(Regulatory Mendelianmutation)框架的机器学习方法,利用453个已知与孟德尔疾病相关的非编码变异对其进行训练,并采用了一些机器学习技巧帮助克服这种数据集的不平衡问题。

ReMM算法基于预测的非编码序列中每个位点对孟德尔疾病的可能致病性,对其进行评分。然后结合表型数据、编码区和非编码区变异和已有的基因-表型关联信息对该位点的突变进行排序。Robinson解释说,这个过程基本上就是,将大约包含450万个变异的基因组测序数据输入程序,然后利用Human Phenotype Ontology术语描述表型……,程序将在变异中进行搜索,最后输出一份候选位点列表。

根据文章中比较研究的结果,Genomiser在识别孟德尔疾病相关变异方面比一般的变异致病性评分方法更好。该软件的基准测试使用了1万多个模拟的罕见病基因组数据,其中包括超过400百万个变异,结果显示,当疾病表型信息完整时,Genomiser能够在77%的案例中正确地对因果调节变异进行排序。当使用真实的临床表型数据进行重复实验时,Genomiser的性能降低到68%,能够显著识别非编码变异。

这些数据明显优于另一种用于孟德尔疾病非编码变异识别的软件Phen-Gen的数据,Phen-Gen在获得完整表型信息的情况下能够在19%的案例中进行正确的变异排序,在只有部分表型数据时,评估性能仅为14%。研究者写道,“即使只分析Phen-Gen输出的前100个变异,因果变异也只能在31%~34%的样本中检测到。”

与另一种预测基因组非编码区致病性变异的方法CADD相比,Genomiser在表型信息完整或不完整时性能都略好。表型信息完整的情况下,CADD能对71%案例的变异进行准确的排序,在只有部分表型信息时,评估能力为61%。研究人员还测试了Genomiser和CADD在没有表型信息时的分类能力。在没有表型数据时,Genomiser性能显著降低至23%,CADD则无法对任何因果变异进行排序。

文章中另一个试验证明,Genomiser能够利用基因组编码区变异信息预测非编码致病性变异。研究人员利用Genomiser分析了22个已发表病例数据,这些样本中包含有调节因果突变和编码变异或剪切位点。结果表明,Genomiser能够准确对84%的样本中的因果基因进行排序。

Genomiser可以在标准的台式电脑上运行全基因分析,所需时间大概为10分钟。因为Genomiser是模块化的,研究人员可以根据需要将ReMM替换成其他的致病性预测方法。该软件作为Exomiser 软件套件的一部分免费提供,Genomiser将被用于分析英国10万基因组计划的罕见病数据,以及NIH的Undiagnosed Disease计划的数据。

(来源:测序中国)