【佳学基因检测】HAIL,一个基于数据库的生物信息分析途径算得上是基因解码吗?
HAIL的特点:
简化分析
HAIL是一个开源的Python库,简化了基因组数据分析。它提供了强大、易于使用的数据科学工具,可用于甚至用于询问生物库规模的基因组数据(例如英国生物库、gnomAD、TopMed、FinnGen 和日本生物库)。
基因组数据框架
现代数据科学是由数字矩阵(参见Numpy)和表(参见R和熊猫)驱动的。 虽然这些工具足以完成许多任务,但这些工具都没有充分捕获遗传数据的结构。遗传数据结合了多个轴(变体和样本),如矩阵和结构化条目(基因型),如表或数据框。为了支持基因组分析,Hail 引入了一种强大的分布式数据结构,结合了矩阵和数据帧(称为MatrixTable)的功能。
输入统一
Hail MatrixTable统一了各种输入格式(例如.vcf、bgen、plink、tsv、gtf、床文件),并支持可扩展查询,即使在 PB 大小的数据集上。通过利用 MatrixTable,Hail 为科学提供了一个集成的、可扩展的分析平台。
注释数据库
警告
HAIL中的所有功能都是在不断创新中完善和改变。
此数据库包含一个精心策划的变体注释集合,其格式可访问且便于海尔使用,用于 Hail 分析管道。
若要将这些注释合并到您自己的 Hail 分析管道中,请选择要从下表中查询的批注,然后复制并将 Hail 生成的代码粘贴到您自己的分析脚本中。
查看数据库类文档,了解有关创建注释数据库实例和注释MatrixTable或表的更多详细信息。
谷歌云存储
请注意,这些注释存储在 Google云存储上的"请求者付费"存储桶中。存储桶现在在美国和欧盟区域都可用,因此,如果您的群集不在创建注释数据库实例时指定的区域之外,则可能会收取出口费用。
若要访问以 开始的群集上的这些存储桶,可以使用附加参数,如下所示:hailctl dataproc
--requester-pays-annotation-db
hailctl dataproc start my-cluster --requester-pays-allow-annotation-db
亚马逊 S3
注释数据集现在也通过AWS 上的开放数据进行共享,并且可以在 AWS 上运行 Hail 的用户访问。请注意,在 AWS 上,注释数据集目前仅在美国区域的存储桶中可用。
数据库查询
通过单击表中的复选框选择注释,将在下面的面板中生成相应的 Hail 命令。
此外,如果在我们的精心策划的集合中查找特定的注释,则提供搜索栏。
使用"复制到剪贴板"按钮复制生成的 Hail 代码,然后将命令粘贴到您自己的 Hail 脚本中。
名字 | 描述 | 版本 | 参考基因组 | |
---|---|---|---|---|
CADD | 组合注释依赖消耗 (CADD):一种用于注释编码和非编码变体的算法。链接 |
1.4 1.4 |
GRCh37 GRCh38 |
|
DANN | DANN:一种用于注释基因变异的致病性的深度学习方法。链接 |
无 无 |
GRCh37 GRCh38 |
|
Ensembl_homo_sapiens_low_complexity_regions | Ensembl:脊椎动物基因组的基因组浏览器,支持比较基因组学、进化、序列变异和转录调控方面的研究。链接 |
release_95 release_95 |
GRCh37 GRCh38 |
|
Ensembl_homo_sapiens_reference_genome | Ensembl:脊椎动物基因组的基因组浏览器,支持比较基因组学、进化、序列变异和转录调控方面的研究。链接 |
release_95 release_95 |
GRCh37 GRCh38 |
|
clinvar_gene_summary | Clinvar:汇总有关基因组变异及其与人类健康的关系的信息。链接 | 2019-07 | 没有 | |
clinvar_variant_summary | Clinvar:汇总有关基因组变异及其与人类健康的关系的信息。链接 |
2019-07 2019-07 |
GRCh37 GRCh38 |
|
dbNSFP_genes | dbNSFP:为人类基因组中所有nsSNV的功能预测和注释而开发的数据库。链接 | 4.0 | 没有 | |
dbNSFP_variants | dbNSFP:为人类基因组中所有nsSNV的功能预测和注释而开发的数据库。链接 |
4.0 4.0 |
GRCh37 GRCh38 |
|
基因代码 | GENCODE:旨在通过计算分析、人工注释和实验验证的组合来识别人类基因组中的所有基因特征。链接 |
v19 v31 |
GRCh37 GRCh38 |
|
gerp_elements | GERP:通过量化替代赤字,在多个对齐方式中识别受约束的元素。链接 |
hg19 hg19 |
GRCh37 GRCh38 |
|
gerp_scores | GERP:通过量化替代赤字,在多个对齐方式中识别受约束的元素。链接 |
hg19 hg19 |
GRCh37 GRCh38 |
|
gnomad_exome_sites | gnomAD:一种资源,其目标是聚合和协调来自各种大规模测序项目的外显组和基因组测序数据。链接 |
2.1.1 2.1.1 |
GRCh37 GRCh38 |
|
gnomad_genome_sites | gnomAD:一种资源,其目标是聚合和协调来自各种大规模测序项目的外显组和基因组测序数据。链接 |
2.1.1 2.1.1 3.1 |
GRCh37 GRCh38 GRCh38 |
|
gnomad_lof_metrics | gnomAD:一种资源,其目标是聚合和协调来自各种大规模测序项目的外显组和基因组测序数据。链接 | 2.1.1 | 没有 | |
ldsc_baselineLD_annotations | LDSC 基线 LD 模型:包含 75 个注释(在后期版本中包含的其他注释),包括功能区域、组蛋白标记、GERP 分数、与 LD 相关的种群遗传学力注释、MAF bin 等。链接 | 2.2 | Grch37 |
- 【佳学基因检测】什么是MLPA基因检测?有什么优点?...
- 【佳学基因检测】如何将全基因组测序(WGS)基因检测数据定位到人的标准基因组上?...
- 【佳学基因检测】FISH基因检测中的探针类型选择...
- 【佳学基因检测】肿瘤基因检测生物信息分析注意事项...
- 【佳学基因检测】癌症基因组检测要点:一定要知道!...
- 【佳学基因检测】什么是基因组检测?...
- 【佳学基因检测】TP53突变基因检测...
- 【佳学基因检测】基因解码对Y染色体的进一步解密...
- 【佳学基因检测】肿瘤基因检测需要包括重复或反复区域的分析吗?...
- 【佳学基因检测】如何采用液体活检检进行细胞学检测与NGS测序...
- 【佳学基因检测】临床科研服务:GWAS课题中的统计分析...
- 【佳学基因检测】肿瘤靶向药物Regorafenib (Stivarga) 及其在结直肠癌治疗中的作用...
- 【佳学基因检测】ALDOA的群体遗传学结果对基因检测正确性的影响...
- 【佳学基因检测】SLC25A4的双生子遗传学分析结果简介...
- 【佳学基因检测】ASIC1的分子遗传学分析成果...
- 【佳学基因检测】ANXA6分子病理学成果概要...
- 【佳学基因检测】检验科医师晋升考试关于ADRA2C的知识...
- 【佳学基因检测】医学院硕士研究考试关于ACVR2A基因检测的知识要点...
- 【佳学基因检测】医学博士ANK1基因检测的知识结构准备...
- 【佳学基因检测】医学院专升本关于ADCYAP1R1基因检测的基本技能...
- 【佳学基因检测】病例分析会中需要知道的关于ACLY基因的知识...
- 【佳学基因检测】病案讨论中需要知道的关于AIF1的知识...
- 【佳学基因检测】质谱基因检测AGTR2基因存在基因突变该怎么理解?...
- 【佳学基因检测】飞行质谱基因检测发现ADRA2A有突变,严重吗?...
- 【佳学基因检测】核型分析发现NAT1突变了,是什么意思?...
- 【佳学基因检测】遗传学检测结果指出ALOX15突变,该找谁咨询?...
- 【佳学基因检测】高精度基因检测为什么包含ADD1基因?...
- 【佳学基因检测】基因检测包中为什么一定要有ACTA2基因?...
- 【佳学基因检测】基因检测时查看是否包含ADH1C重要吗?...
- 【佳学基因检测】NR0B1基因间序列存在突变是否需要阻断遗传?...
- 来了,就说两句!
-
- 贼新评论 进入详细评论页>>