你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
GATK 资源包
GATK 资源包是标准文件的集合,用于与 GATK 的人类基因序列数据结合使用。
注意
Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。
此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。
数据源
此数据集是 https://gatk.broadinstitute.org/hc/articles/360035890811-Resource-bundle 处的数据存储的镜像
数据量和更新频率
- datasetgatkbestpractices:542 GB
- datasetgatklegacybundles:61 GB
- datasetgatktestdata:2 TB
- datasetpublicbroadref:477 GB
- datasetbroadpublic:3 TB
数据集每月更新一次,在每月第一周进行更新。
存储位置
此数据集存储在 Azure 美国西部 2 和美国中西部区域。 为实现相关性,建议将计算资源分配到美国西部 2 或美国中西部区域。
数据访问
datasetgatkbestpractices
美国西部 2: https://datasetgatkbestpractices.blob.core.windows.net/dataset
美国中西部: https://datasetgatkbestpractices-secondary.blob.core.windows.net/dataset
datasetgatklegacybundles
美国西部 2: https://datasetgatklegacybundles.blob.core.windows.net/dataset
美国中西部: https://datasetgatklegacybundles-secondary.blob.core.windows.net/dataset
datasetgatktestdata
美国西部 2: https://datasetgatktestdata.blob.core.windows.net/dataset
美国中西部: https://datasetgatktestdata-secondary.blob.core.windows.net/dataset
datasetpublicbroadref
美国西部 2: https://datasetpublicbroadref.blob.core.windows.net/dataset
美国中西部: https://datasetpublicbroadref-secondary.blob.core.windows.net/dataset
美国中南部:https://datasetpublicbroadrefsc.blob.core.windows.net/dataset
datasetbroadpublic
美国西部 2: https://datasetbroadpublic.blob.core.windows.net/dataset
美国中西部: https://datasetbroadpublic-secondary.blob.core.windows.net/dataset
美国中南部:https://datasetbroadpublicsc.blob.core.windows.net/dataset
使用条款
访问 GATK 资源包官方网站。
联系人
访问 GATK 资源包官方网站。
后续步骤
查看开放数据集目录中的其余数据集。