【佳学基因检测】人的遗传病基因检测数据库核心数据揭密
人类基因病、遗传病基因检测的科学性分析小组从两个数据库资源中获得了一组可能致病(引起疾病)的遗传变异:ClinVar 和 UniProt。 ClinVar 从提交的研究报告中汇总报告的变异疾病关联。 ClinVar对变异的临床解释遵循ACMG(美国医学遗传学和基因组学学会)指南,分为五类:“致病性”、“可能致病性”、“不确定意义”、“良性”和“可能良性”。遗传病基因检测将“致病”或“可能致病”类别视为致病变异,将“良性”和“可能良性”类别视为非致病变异,同时忽略“不确定意义”类别。应该注意的是,ClinVar 解释中可能存在错误或与其他数据库的不一致,尤其是“可能致病”和“可能良性”类别,其中 ACMG 推荐的置信水平大于 90% 的致病和确定性良性的。在约 4,200 个蛋白质编码基因中发现了注释为“致病性”或“可能致病性”的 ClinVar 变异,约占人类蛋白质组的五分之一。在这些基因检测变体中,单氨基酸变异(SAV) 存在于这些基因的大多数 (3,410) 中。在其中大多数(约 3,300 个基因)中也发现了非单氨基酸变异(SAV) 变体。非单氨基酸变异(SAV) 变异包括插入缺失变异、非编码区(主要在剪接位点)的单核苷酸变异、无义单核苷酸变异(终止密码子)和少量同义变异。 31,171 个单氨基酸变异(SAV) 约占所有带有“致病性”或“可能致病性”注释的 ClinVar 变异的 30%。 UniProt 是另一种针对致病性 单氨基酸变异(SAV) 的精选资源。注释为与疾病相关的 UniProt 单氨基酸变异(SAV) 的蛋白质数量为 2,755。这些基因中的大多数 (2,590) 与 ClinVar 疾病相关基因集重叠,而 UniProt 仅贡献了 ClinVar 集中未发现的 165 个疾病相关基因。另一方面,超过一半的 UniProt 致病变异(29,300 个中的 15,697 个)未在 ClinVar 致病变异集中发现。统一的 ClinVar 和 UniProt 集中可能的致病变异总数约为 47,000。我们还通过将注释为“良性”或“可能良性”的 ClinVar 变体与“多态性”类别中的 UniProt 变体相结合,获得了一组良性变体(~45,000)。
疾病相关基因和变异的分布
A) 具有不同类型变异的 ClinVar 疾病相关基因的数量。非 SAV 类别结合了无意义突变、同义突变、非编码和插入缺失的类别。 B) ClinVar 疾病相关基因中不同类型变异的数量。 C) 来自 UniProt 和 ClinVar 的具有致病性 SAV 的基因Venn图。 D).来自 UniProt 和 ClinVar 的致病变异的维恩图。
可能致病的单氨基酸变异(SAV) 的数量在疾病相关基因中分布不均。 单氨基酸变异(SAV) 数量贼多的三个基因编码长蛋白:FBN1(Fibrillin-1,2,871 个氨基酸)、LDLR(低密度脂蛋白受体,860 个氨基酸)和 SCN1A(钠通道蛋白 1 型亚基 α,2,009 个氨基酸酸),每一种都有超过 500 个致病性 SAV。部分原因可能是这些蛋白质的长度。 75 个基因拥有超过 100 个致病性单氨基酸变异(SAV) 。超过一半的具有单氨基酸变异(SAV) 的疾病相关基因(3,575 个中的 2,003 个)具有少于 5 个致病性单氨基酸变异(SAV) ,其中 916 个只有一个致病性单氨基酸变异(SAV) 。 单氨基酸变异(SAV) 分布不均的原因之一可能是对常见疾病和某些基因(例如,与高胆固醇血症有关的 LDLR 基因)的研究存在偏差。
(责任编辑:佳学基因)