Sdílet prostřednictvím


Lidské referenční genomy

Tato datová sada obsahuje dva odkazy na lidské genomy sestavené konsorciem Genome Reference Consortium: Hg19 a Hg38.

Další informace o datech Hg19 (GRCh37) najdete ve studii GRCh37 na NCBI.

Další informace o datech Hg38 najdete ve studii GRCh38 na NCBI.

Další informace o těchto datech najdete na webu NCBI RefSeq.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Zdroj dat

Zdrojem této datové sady jsou dvě umístění FTP:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Názvy objektů blob začínají segmentem vertebrate_mammalian identifikátoru URI.

Objemy dat a frekvence aktualizací

Tato datová sada obsahuje přibližně 10 GB a aktualizuje se každý den.

Dočasné úložiště

Tato datová sada je uložená v oblastech Azure USA – středozápad 2, USA – středozápad a USA – středojiž. Pro spřažení se doporučuje přidělování výpočetních prostředků v oblasti USA – západ 2 nebo USA – středozápad nebo USA – středojiž.

Přístup k datům

USA – západ 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'

USA – středozápad: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'

USA – středojižní: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

Podmínky použití

Data jsou k dispozici bez omezení. Další informace a podrobnosti citace najdete na webu databáze referenční sekvence NCBI.

Kontakt

Pokud máte jakékoli dotazy nebo zpětnou vazbu k této datové sadě, obraťte se na konsorcium Genome Reference Consortium.

Přístup k datům

Azure Notebooks

Získání referenčních genomů z Azure Open Datasets

Několik veřejných dat genomiky se tady nahrálo jako datová sada Azure Open Dataset. Vytvoříme službu blob propojenou s touto otevřenou datovou sadou. Příklady volání dat z Azure Open Datasets pro Reference Genomes datovou sadu najdete níže:

Uživatelé můžou volat a stahovat následující cestu s tímto poznámkovým blokem:https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt

Důležitá poznámka: Uživatelé se musí přihlásit ke svému účtu Azure prostřednictvím Azure CLI, aby si mohli prohlížet data pomocí sady Azure ML SDK. Na druhou stranu nepotřebují ke stažení dat žádné akce.

Nainstalujte Azure CLI.

Volání dat z referenčních datových sad genomu

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Stažení konkrétního souboru

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.