Mänskligt referensgenom
Den här datamängden innehåller två referenser för mänsklig genom som sammanställts av Genome Reference Consortium: Hg19 och Hg38.
Mer information om data för Hg19 (GRCh37) finns i GRCh37-rapporten på NCBI.
Mer information om data för Hg38 finns i GRCh38-rapporten på NCBI.
Annan information om data finns på NCBI RefSeq-webbplatsen.
Kommentar
Microsoft tillhandahåller Azure Open Datasets i befintligt fall. Microsoft ger inga garantier, uttryckliga eller underförstådda garantier eller villkor för din användning av datauppsättningarna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkt, följdriktig, särskild, indirekt, tillfällig eller straffbar, till följd av din användning av datauppsättningarna.
Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.
Data source
Den här datamängden hämtas från två FTP-platser:
Blobnamn prefixet börjar med segmentet "vertebrate_mammalian" i URI:n.
Datavolymer och uppdateringsfrekvens
Den här datamängden innehåller cirka 10 GB data och uppdateras dagligen.
Lagringsplats
Den här datamängden lagras i Azure-regionerna USA, västra 2, USA, västra centrala och USA, södra centrala. Allokering av beräkningsresurser i USA, västra 2 eller USA, västra centrala eller USA, södra centrala rekommenderas för tillhörighet.
Dataåtkomst
USA, västra 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'
USA, västra centrala: "https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset"
USA, södra centrala: "https://datasetreferencegenomesc.blob.core.windows.net/dataset"
Användningsvillkor
Data är tillgängliga utan begränsningar. Mer information och källhänvisningsinformation finns på NCBI-referenssekvensdatabasens plats.
Kontakt
Om du vill ha frågor eller feedback om den här datamängden kontaktar du Genome-referenskonsortiet.
Dataåtkomst
Azure Notebooks
Hämta referensgenom från Azure Open Datasets
Flera offentliga genomikdata har laddats upp som en Azure Open Dataset här. Vi skapar en blobtjänst som är länkad till den här öppna datamängden. Du hittar exempel på proceduren för datasamtal från Azure Open Datasets för Reference Genomes
datauppsättningen nedan:
Användare kan anropa och ladda ned följande sökväg med den här notebook-filen: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt'
Viktigt: Användarna måste logga in sitt Azure-konto via Azure CLI för att kunna visa data med Azure ML SDK. Å andra sidan behöver de inte utföra några åtgärder för att ladda ned data.
Anropa data från "Referensgenomdatauppsättningar"
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')
# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata
Ladda ned den specifika filen
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')
Nästa steg
Visa resten av datauppsättningarna i katalogen Öppna datamängder.