【佳学基因检测】基因检测中的智能算法历程:phastCons
根据佳学基因基因解码年鉴,phastCons是一款对基因组中发生突变的区域的保守程度进行分析和智能评估的软件,通过snpsift的phastCons
命令可以对变异位点进行保守区域的注释。
phastCons职能算法的初衷是为了识别多重比对序列中的保守序列。 PhastCons 的算法基础是基于系统发育隐马尔可夫模型 (phylo-HMM),这是一种统计模型,它考虑了基因组中每个位点发生核苷酸替换的过程以及该过程如何从一个位点变化到下一个位点。 Phylo-HMM 提供了一个原则性的、数学上严格的框架,在该框架中使用比较序列数据解决“分段”问题,即对齐序列将被解析为不同类别的片段(例如,“保守”和“非保守”或“编码”和“非编码”)。由于几个原因,它们是识别保守序列的有吸引力的工具;它们可以与一般系统发育和核苷酸替换的贼佳可用连续时间马尔可夫模型一起使用,它们不需要固定大小的滑动窗口,它们允许通过贼大似然从数据中估计几乎所有参数,并且它们允许在大规模数据集上有效执行所有必要的计算。
使用 phastCons,佳学基因对不同物种的全基因组采用多重比对的方法对保守元素进行了全面搜索,包括五个脊椎动物基因组、四个昆虫基因组、两个 Caenorhabditis 基因组和七个酵母菌基因组。
佳学基因发现大约 3%–8% 的人类基因组由脊椎动物和/或其他真兽类哺乳动物中保守的序列组成。基因组紧凑的黑腹果蝇 (37%–53%)、秀丽隐杆线虫 (18%–37%) 和酿酒酵母 (47%–68%) 基因组的亲缘关系更近的物种中是保守的。从酵母到脊椎动物,为了增加基因组大小和一般生物学复杂性,发现越来越多的保守碱基位于蛋白质编码基因的已知或可疑外显子之外,这显然反映了复杂真核生物中调控和其他非编码序列的重要性。
在所有物种组中,贼高保守元素 (HCEe) 的对数优势得分为数百或数千个碱基,并显示出极高的保守水平,但不是在超保守元素中看到的出色序列。少于一半 (42%) 的脊椎动物 HCE 与已知蛋白质编码基因的外显子重叠,而在昆虫、蠕虫和酵母中,几乎所有 (>93%) 的 HCE 都与此类外显子重叠。
脊椎动物中一些贼极端的保守性见于 3' UTR,尤其是调节其他基因的基因,这可能反映了广泛的转录后调节。这种趋势在昆虫中不太明显,在蠕虫中没有观察到。
脊椎动物 3' UTR 中的 HCE,以及在较小程度上,5' UTR 中的 HCE,显示出局部 RNA 二级结构富集的强有力的统计证据,这与转录后调控作用的假设一致。内含子和基因间区域中的 HCE 似乎也富含局部 RNA 二级结构,这表明许多可能编码功能性 RNA。
在脊椎动物中,基因间 HCE 在稳定的基因沙漠中高度富集(近五倍),这表明它们中的许多可能充当正确调节基因的远端顺式调节元件。
(责任编辑:佳学基因)