Dela via


Mänskligt referensgenom

Den här datamängden innehåller två referenser för mänsklig genom som sammanställts av Genome Reference Consortium: Hg19 och Hg38.

Mer information om data för Hg19 (GRCh37) finns i GRCh37-rapporten på NCBI.

Mer information om data för Hg38 finns i GRCh38-rapporten på NCBI.

Annan information om data finns på NCBI RefSeq-webbplatsen.

Kommentar

Microsoft tillhandahåller Azure Open Datasets i befintligt fall. Microsoft ger inga garantier, uttryckliga eller underförstådda garantier eller villkor för din användning av datauppsättningarna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkt, följdriktig, särskild, indirekt, tillfällig eller straffbar, till följd av din användning av datauppsättningarna.

Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.

Data source

Den här datamängden hämtas från två FTP-platser:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Blobnamn prefixet börjar med segmentet "vertebrate_mammalian" i URI:n.

Datavolymer och uppdateringsfrekvens

Den här datamängden innehåller cirka 10 GB data och uppdateras dagligen.

Lagringsplats

Den här datamängden lagras i Azure-regionerna USA, västra 2, USA, västra centrala och USA, södra centrala. Allokering av beräkningsresurser i USA, västra 2 eller USA, västra centrala eller USA, södra centrala rekommenderas för tillhörighet.

Dataåtkomst

USA, västra 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'

USA, västra centrala: "https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset"

USA, södra centrala: "https://datasetreferencegenomesc.blob.core.windows.net/dataset"

Användningsvillkor

Data är tillgängliga utan begränsningar. Mer information och källhänvisningsinformation finns på NCBI-referenssekvensdatabasens plats.

Kontakt

Om du vill ha frågor eller feedback om den här datamängden kontaktar du Genome-referenskonsortiet.

Dataåtkomst

Azure Notebooks

Hämta referensgenom från Azure Open Datasets

Flera offentliga genomikdata har laddats upp som en Azure Open Dataset här. Vi skapar en blobtjänst som är länkad till den här öppna datamängden. Du hittar exempel på proceduren för datasamtal från Azure Open Datasets för Reference Genomes datauppsättningen nedan:

Användare kan anropa och ladda ned följande sökväg med den här notebook-filen: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt'

Viktigt: Användarna måste logga in sitt Azure-konto via Azure CLI för att kunna visa data med Azure ML SDK. Å andra sidan behöver de inte utföra några åtgärder för att ladda ned data.

Installera Azure CLI.

Anropa data från "Referensgenomdatauppsättningar"

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Ladda ned den specifika filen

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Nästa steg

Visa resten av datauppsättningarna i katalogen Öppna datamängder.