【佳学基因检测】HAIL,一个基于数据库的生物信息分析途径算得上是基因解码吗?
HAIL的特点:
简化分析
HAIL是一个开源的Python库,简化了基因组数据分析。它提供了强大、易于使用的数据科学工具,可用于甚至用于询问生物库规模的基因组数据(例如英国生物库、gnomAD、TopMed、FinnGen 和日本生物库)。
基因组数据框架
现代数据科学是由数字矩阵(参见Numpy)和表(参见R和熊猫)驱动的。 虽然这些工具足以完成许多任务,但这些工具都没有充分捕获遗传数据的结构。遗传数据结合了多个轴(变体和样本),如矩阵和结构化条目(基因型),如表或数据框。为了支持基因组分析,Hail 引入了一种强大的分布式数据结构,结合了矩阵和数据帧(称为MatrixTable)的功能。
输入统一
Hail MatrixTable统一了各种输入格式(例如.vcf、bgen、plink、tsv、gtf、床文件),并支持可扩展查询,即使在 PB 大小的数据集上。通过利用 MatrixTable,Hail 为科学提供了一个集成的、可扩展的分析平台。
注释数据库
警告
HAIL中的所有功能都是在不断创新中完善和改变。
此数据库包含一个精心策划的变体注释集合,其格式可访问且便于海尔使用,用于 Hail 分析管道。
若要将这些注释合并到您自己的 Hail 分析管道中,请选择要从下表中查询的批注,然后复制并将 Hail 生成的代码粘贴到您自己的分析脚本中。
查看数据库类文档,了解有关创建注释数据库实例和注释MatrixTable或表的更多详细信息。
谷歌云存储
请注意,这些注释存储在 Google云存储上的"请求者付费"存储桶中。存储桶现在在美国和欧盟区域都可用,因此,如果您的群集不在创建注释数据库实例时指定的区域之外,则可能会收取出口费用。
若要访问以 开始的群集上的这些存储桶,可以使用附加参数,如下所示:hailctl dataproc
--requester-pays-annotation-db
hailctl dataproc start my-cluster --requester-pays-allow-annotation-db
亚马逊 S3
注释数据集现在也通过AWS 上的开放数据进行共享,并且可以在 AWS 上运行 Hail 的用户访问。请注意,在 AWS 上,注释数据集目前仅在美国区域的存储桶中可用。
数据库查询
通过单击表中的复选框选择注释,将在下面的面板中生成相应的 Hail 命令。
此外,如果在我们的精心策划的集合中查找特定的注释,则提供搜索栏。
使用"复制到剪贴板"按钮复制生成的 Hail 代码,然后将命令粘贴到您自己的 Hail 脚本中。
名字 | 描述 | 版本 | 参考基因组 | |
---|---|---|---|---|
CADD | 组合注释依赖消耗 (CADD):一种用于注释编码和非编码变体的算法。链接 |
1.4 1.4 |
GRCh37 GRCh38 |
|
DANN | DANN:一种用于注释基因变异的致病性的深度学习方法。链接 |
无 无 |
GRCh37 GRCh38 |
|
Ensembl_homo_sapiens_low_complexity_regions | Ensembl:脊椎动物基因组的基因组浏览器,支持比较基因组学、进化、序列变异和转录调控方面的研究。链接 |
release_95 release_95 |
GRCh37 GRCh38 |
|
Ensembl_homo_sapiens_reference_genome | Ensembl:脊椎动物基因组的基因组浏览器,支持比较基因组学、进化、序列变异和转录调控方面的研究。链接 |
release_95 release_95 |
GRCh37 GRCh38 |
|
clinvar_gene_summary | Clinvar:汇总有关基因组变异及其与人类健康的关系的信息。链接 | 2019-07 | 没有 | |
clinvar_variant_summary | Clinvar:汇总有关基因组变异及其与人类健康的关系的信息。链接 |
2019-07 2019-07 |
GRCh37 GRCh38 |
|
dbNSFP_genes | dbNSFP:为人类基因组中所有nsSNV的功能预测和注释而开发的数据库。链接 | 4.0 | 没有 | |
dbNSFP_variants | dbNSFP:为人类基因组中所有nsSNV的功能预测和注释而开发的数据库。链接 |
4.0 4.0 |
GRCh37 GRCh38 |
|
基因代码 | GENCODE:旨在通过计算分析、人工注释和实验验证的组合来识别人类基因组中的所有基因特征。链接 |
v19 v31 |
GRCh37 GRCh38 |
|
gerp_elements | GERP:通过量化替代赤字,在多个对齐方式中识别受约束的元素。链接 |
hg19 hg19 |
GRCh37 GRCh38 |
|
gerp_scores | GERP:通过量化替代赤字,在多个对齐方式中识别受约束的元素。链接 |
hg19 hg19 |
GRCh37 GRCh38 |
|
gnomad_exome_sites | gnomAD:一种资源,其目标是聚合和协调来自各种大规模测序项目的外显组和基因组测序数据。链接 |
2.1.1 2.1.1 |
GRCh37 GRCh38 |
|
gnomad_genome_sites | gnomAD:一种资源,其目标是聚合和协调来自各种大规模测序项目的外显组和基因组测序数据。链接 |
2.1.1 2.1.1 3.1 |
GRCh37 GRCh38 GRCh38 |
|
gnomad_lof_metrics | gnomAD:一种资源,其目标是聚合和协调来自各种大规模测序项目的外显组和基因组测序数据。链接 | 2.1.1 | 没有 | |
ldsc_baselineLD_annotations | LDSC 基线 LD 模型:包含 75 个注释(在后期版本中包含的其他注释),包括功能区域、组蛋白标记、GERP 分数、与 LD 相关的种群遗传学力注释、MAF bin 等。链接 | 2.2 | Grch37 |
(责任编辑:佳学基因)