你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

基因组学数据湖

基因组学数据湖提供了各种公共数据集,你可免费访问它们,也可将它们集成到你的基因组学分析工作流和应用程序中。 该数据集包含 BAM、FASTA、VCF 和 CSV 文件格式的基因组序列、变体信息和受试者/样本元数据。

基因组数据湖托管在 Azure 美国西部 2 和美国中西部区域。 为实现相关性,建议将计算资源分配到美国西部 2 和美国中西部区域。

注意

数据集的使用受数据集所有者设置的条款和条件的约束。 请查看各数据集的详细信息页,了解适用的条款和条件。

数据集

数据集 说明
Illumina Platinum Genomes Illumina Platinum Genomes
人类参考基因组 人类参考基因组
ClinVar 注释 ClinVar 注释
SnpEff SnpEff:基因变异注释和功能影响预测工具箱
gnomAD gnomAD:基因组聚合数据库
1000 基因组 1000 基因组
OpenCravat OpenCravat:开放式变体自定义排名分析工具包
ENCODE ENCODE:DNA 元件百科全书
GATK 资源包 GATK 资源包
TCGA 开放数据 TCGA 开放数据
Pan UK-Biobank 泛英生物银行
ImmuneCODE 数据库 ImmuneCODE 数据库
Open Targets 数据集 Open Targets 数据集

后续步骤

查看开放数据集目录中的其余数据集。