【佳学基因检测】基因解码如何更好的分析线粒体基因突变检测
线粒体基因检测后的突变位点注释
在2013 年 2 月,ANNOVAR 可以注释线粒体变异,在对线粒体突变进行解码和注释时,染色体采用 M 、 MT、chrM 或 chrMT进行标记。在这种情况下,基因解码分析系统将调用线粒体专属密码子表以分析基因序列变化而引起的结构变化,这是基因解码优与常规分析方法之一。 然而,有几个方面需要注意:
RefSeq 没有线粒体基因定义。 因此使用 ANNOVAR方法时行注释时,需要使用 UCSC Known Gene 或 Ensembl Gene。
佳学基因解码发现UCSC 的 hg19 参照序列使用旧版本的线粒体基因组 (NC_001807),但 1000 基因组联盟已用贼新的剑桥参考序列版本 (NC_012920) 取代了 chrM。 因此,如果根据 NC_012920 对序列进行比对,并获得突变序列信息,就会无法真正使用 UCSC 的基因定义来对突变序列进行解释。基因解码在进行基因序列分析必须坚持使用相同的坐标体系。 为了更好地解释这一点,当基因测序以FASTQ 文件形式获取原始序列数据时,如果将数据与 UCSC 编译的参考基因组进行比对(通常文件名类似于 hg19.fa,并且有一些染色体的名称如 chrx_random) ,那么可以直接使用ANNOVAR将所有的突变序列一起注释。 线粒体突变序列将是那些与 chrM 相符的突变序列,2013 年 2 月版本的 ANNOVAR 可以正确注释它们。 基因解码研究人员编写了一个用于两个参考序列之间位置转换的程序文件,并用它来将 GRCh37 文件匹配到 hg19 文件。 通过在 hg19 参考序列 (AF347015.1) 上使用retrieve_seq_from_fasta.pl,将为基于 hg19 的线粒体注释生成后续的解释文件。
许多基因检测及测序机构没有意识到的一个伴随性的结果,Ensemble 对线粒体基因存在注释错误(通常是几个碱基对),因此不应使用 Ensembl 的基因注释。 举个简单的例子,你可以在 UCSC 基因组浏览器中搜索 ENST00000389680:当 Gencode 列出位置为 chrM:650-1603 时,Ensembl 注释显示为 chrM:646-1599,这里有个4bp的差异。 由于这些原因,当调用 hg19 坐标上的基因突变序列时,应该使用佳学基因解码提供的文件进行线粒体注释,以确何线粒基因突变序列检出的正确性。
为了生物信息分析人员更容易做到这一点,基因解码提供两个文件:ANNOVAR中humandb/ 目录中的 hg19_MT_ensGene.txt 和 hg19_MT_ensGeneMrna.fa。 -buildver 是 hg19_MT,-dbtype 是 ensGene。
但是,如果将原始 FASTQ 文件与具有 NC_012920 的参考基因组(例如 1000 Genomes Project 提供的基因组,通常文件名类似于 human_g1k_v37.fasta)进行比对,那么需要使用具有 NC_012920 的自定义基因定义文件 NC_012920 的正确线粒体基因定义。 基因解码提供了此类基于Ensemble定义的文件。 请注意,染色体名称通常应为 MT(2013 年 6 月之前,基因解码操作说明文件中使用 chrM,这导致一些 ANNOVAR的生物信息技术人员感到困惑,因此基因解码随后将其更改为 MT 并使用 GRCh37 的标准)。 在这种情况下,应该使用以下命令来注释线粒体变体:annotate_variation.pl -buildver GRCh37_MT -dbtype ensGene mt.avinput humandb/。
为了让基因检测机构的生物信息分析更容易做到这一点,基因解码现在在 ANNOVAR 包 humandb/ 目录中提供了两个文件 GRCh37_MT_ensGene.txt.gz 和 GRCh37_MT_ensGeneMrna.fa.gz。 -buildver 是 GRCh37_MT,-dbtype 是 ensGene。