Lidské referenční genomy
Tato datová sada obsahuje dva odkazy na lidské genomy sestavené konsorciem Genome Reference Consortium: Hg19 a Hg38.
Další informace o datech Hg19 (GRCh37) najdete ve studii GRCh37 na NCBI.
Další informace o datech Hg38 najdete ve studii GRCh38 na NCBI.
Další informace o těchto datech najdete na webu NCBI RefSeq.
Poznámka:
Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Zdroj dat
Zdrojem této datové sady jsou dvě umístění FTP:
Názvy objektů blob začínají segmentem vertebrate_mammalian identifikátoru URI.
Objemy dat a frekvence aktualizací
Tato datová sada obsahuje přibližně 10 GB a aktualizuje se každý den.
Dočasné úložiště
Tato datová sada je uložená v oblastech Azure USA – středozápad 2, USA – středozápad a USA – středojiž. Pro spřažení se doporučuje přidělování výpočetních prostředků v oblasti USA – západ 2 nebo USA – středozápad nebo USA – středojiž.
Přístup k datům
USA – západ 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'
USA – středozápad: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'
USA – středojižní: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'
Podmínky použití
Data jsou k dispozici bez omezení. Další informace a podrobnosti citace najdete na webu databáze referenční sekvence NCBI.
Kontakt
Pokud máte jakékoli dotazy nebo zpětnou vazbu k této datové sadě, obraťte se na konsorcium Genome Reference Consortium.
Přístup k datům
Azure Notebooks
Získání referenčních genomů z Azure Open Datasets
Několik veřejných dat genomiky se tady nahrálo jako datová sada Azure Open Dataset. Vytvoříme službu blob propojenou s touto otevřenou datovou sadou. Příklady volání dat z Azure Open Datasets pro Reference Genomes
datovou sadu najdete níže:
Uživatelé můžou volat a stahovat následující cestu s tímto poznámkovým blokem:https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt
Důležitá poznámka: Uživatelé se musí přihlásit ke svému účtu Azure prostřednictvím Azure CLI, aby si mohli prohlížet data pomocí sady Azure ML SDK. Na druhou stranu nepotřebují ke stažení dat žádné akce.
Volání dat z referenčních datových sad genomu
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')
# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata
Stažení konkrétního souboru
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')
Další kroky
Prohlédněte si zbývající datové sady v katalogu Open Datasets.