共用方式為


人類參考基因體

本資料集包括 Genome Reference Consortium 收集的兩份人類基因體參考:Hg19 和 Hg38。

如需 Hg19 (GRCh37) data 資料的詳細資訊,請參閱 NCBI 提供的 GRCh37 報表

如需 Hg38 資料的詳細資訊,請參閱 NCBI 提供的 GRCh38 報表告

資料相關的其他詳細資料則位於 NCBI RefSeq 網站。

注意

Microsoft 依「現況」提供 Azure 開放資料集。 針對 貴用戶對資料集的使用方式,Microsoft 不提供任何明示或默示的擔保、保證或條件。 在 貴用戶當地法律允許的範圍內,針對因使用資料集而導致的任何直接性、衍生性、特殊性、間接性、附隨性或懲罰性損害或損失,Microsoft 概不承擔任何責任。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

資料來源

本資料集源自兩個 FTP 位置:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Blob 名稱開頭會加上 URI 的“vertebrate_mammalian” 區段。

資料量和更新頻率

本資料集包含約 10 GB 的資料,且每天更新。

儲存位置

此資料集儲存在美國西部 2、美國中西部和美國中南部 Azure 區域。 建議您在美國西部 2 或美國中西部或美國中南部配置計算資源,以確保同質性。

資料存取

美國西部 2:’https://datasetreferencegenomes.blob.core.windows.net/dataset’

美國中西部:'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'

美國中南部:'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

使用條款

資料可供使用且不受限制。 如需詳細資訊和引用詳細資料,請參閱 NCBI 參考序列資料庫網站

連絡人

如需此資料集的任何問題或意見反應,請連絡基因體參考聯盟

資料存取

Azure Notebooks

從 Azure 開放資料集取得參考基因體

已有數筆公用基因體學資料上傳至此處,作為 Azure 開放資料集。 我們會建立連結至該開放資料集的 Blob 服務。 您可在下方查看 Azure 開放資料集內 Reference Genomes 資料集的資料呼叫程序範例:

使用者可透過下列路徑來呼叫並下載此筆記本:'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt'

重要注意事項:使用者必須透過 Azure CLI 登入 Azure 帳戶,才能使用 Azure ML SDK 檢視資料。 但若要下載資料,則無須執行任何動作。

安裝 Azure CLI

呼叫「參考基因體資料集」的資料

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

下載特定檔案

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

下一步

檢視開放資料集目錄中的其餘資料集。