你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

人类参考基因组

项目
12/12/2024

此数据集包括由基因组参考联盟汇编的两个人类基因组参考：Hg19 和 Hg38。

要详细了解 Hg19 (GRCh37) 数据，请参阅 NCBI 中的 GRCh37 报告。

要详细了解 Hg38 数据，请参阅 NCBI 中的 GRCh38 报告。

有关该数据的其他详细信息，可访问 NCBI RefSeq 网站。

注意

Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保（明示或暗示）、保证或条件。在当地法律允许的范围内，Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任，包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。

此数据集是根据 Microsoft 接收源数据的原始条款提供的。数据集可能包含来自 Microsoft 的数据。

数据源

该数据集来源于两个 FTP 位置：

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Blob 名称的前缀开头是 URI 的“vertebrate_mammalian”段。

数据量和更新频率

该数据集大约包含 10 GB 的数据，且每天都会更新。

存储位置

此数据集存储在美国西部 2、美国中西部和美国中南部 Azure 区域。为实现相关性，建议将计算资源分配到美国西部 2 或美国中西部或美国中南部区域。

数据访问

美国西部 2： https://datasetreferencegenomes.blob.core.windows.net/dataset

美国中西部： https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset

美国中南部：https://datasetreferencegenomesc.blob.core.windows.net/dataset

使用条款

可随意使用该数据。有关详细信息和引文的详细信息，请参阅 NCBI 参考序列数据库站点。

联系人

有关此数据集的任何问题或反馈，请联系基因组参考联盟。

数据访问

Azure Notebooks

azure-storage

从 Azure 开放数据集获取参考基因组

此处已上传多个公用基因组学数据作为 Azure 开放数据集。我们将创建一个链接到此开放数据集的 blob 服务。在下面可以找到 Azure 开放数据集中 Reference Genomes 数据集的数据调用过程示例：

用户可以使用此笔记本调用并下载位于以下路径的数据：“https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt”

重要说明：用户需要通过 Azure CLI 登录到其 Azure 帐户，以使用 Azure ML SDK 查看数据。另一方面，他们无需执行任何操作即可下载数据。

安装 Azure CLI。

调用“参考基因组数据集”中的数据

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)

from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()

import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))

import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

下载特定文件

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

后续步骤

查看开放数据集目录中的其余数据集。

通过

人类参考基因组

数据源

数据量和更新频率

存储位置

数据访问

使用条款

联系人

数据访问

Azure Notebooks

从 Azure 开放数据集获取参考基因组

调用“参考基因组数据集”中的数据

下载特定文件

后续步骤

反馈

其他资源