你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
人类参考基因组
此数据集包括由基因组参考联盟汇编的两个人类基因组参考:Hg19 和 Hg38。
要详细了解 Hg19 (GRCh37) 数据,请参阅 NCBI 中的 GRCh37 报告。
要详细了解 Hg38 数据,请参阅 NCBI 中的 GRCh38 报告。
有关该数据的其他详细信息,可访问 NCBI RefSeq 网站。
注意
Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。
此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。
数据源
该数据集来源于两个 FTP 位置:
Blob 名称的前缀开头是 URI 的“vertebrate_mammalian”段。
数据量和更新频率
该数据集大约包含 10 GB 的数据,且每天都会更新。
存储位置
此数据集存储在美国西部 2、美国中西部和美国中南部 Azure 区域。 为实现相关性,建议将计算资源分配到美国西部 2 或美国中西部或美国中南部区域。
数据访问
美国西部 2: https://datasetreferencegenomes.blob.core.windows.net/dataset
美国中西部: https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset
美国中南部:https://datasetreferencegenomesc.blob.core.windows.net/dataset
使用条款
可随意使用该数据。 有关详细信息和引文的详细信息,请参阅 NCBI 参考序列数据库站点。
联系人
有关此数据集的任何问题或反馈,请联系基因组参考联盟。
数据访问
Azure Notebooks
从 Azure 开放数据集获取参考基因组
此处已上传多个公用基因组学数据作为 Azure 开放数据集。 我们将创建一个链接到此开放数据集的 blob 服务。 在下面可以找到 Azure 开放数据集中 Reference Genomes
数据集的数据调用过程示例:
用户可以使用此笔记本调用并下载位于以下路径的数据:“https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt”
重要说明:用户需要通过 Azure CLI 登录到其 Azure 帐户,以使用 Azure ML SDK 查看数据。 另一方面,他们无需执行任何操作即可下载数据。
调用“参考基因组数据集”中的数据
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')
# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata
下载特定文件
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')
后续步骤
查看开放数据集目录中的其余数据集。