Genomas de referência humanos

Artigo
12/12/2024

Esse conjunto de dados inclui duas referências de genomas humanos montadas pelo Consórcio de Referência de Genoma: Hg19 e Hg38.

Para obter mais informações sobre os dados de Hg19 (GRCh37), confira o relatório do GRCh37 no NCBI.

Para obter mais informações sobre os dados de Hg38, confira o relatório do GRCh38 no NCBI.

Outros detalhes sobre os dados podem ser encontrados no site RefSeq do NCBI.

Observação

A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.

Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.

Fonte de dados

Este conjunto de dados é originado de dois locais do FTP:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Os nomes de blob têm um prefixo que começa com o segmento “vertebrate_mammalian” do URI.

Volumes de dados e frequência de atualização

Este conjunto de dados contém aproximadamente 10 GB de dados e é atualizado diariamente.

Local de armazenamento

Este conjunto de dados é armazenado nas regiões do Azure Oeste dos EUA 2, Centro-Oeste dos EUA e Centro-Sul dos EUA. É recomendável alocar recursos de computação no Oeste dos EUA 2, Centro-Oeste dos EUA ou Centro-Sul dos EUA por questão de afinidade.

Acesso a dados

Oeste dos EUA 2: “https://datasetreferencegenomes.blob.core.windows.net/dataset”

Centro-Oeste dos EUA: “https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset”

Centro-Sul dos EUA: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

Termos de uso

Os dados estão disponíveis sem restrições. Para obter mais informações e detalhes da citação, confira o site do Banco de Dados de Sequência de Referência do NCBI.

Contact

Para dúvidas ou comentários sobre esse conjunto de dados, contate o Consórcio de Referência de Genoma.

Acesso de dados

Azure Notebooks

azure-storage

Obtendo os Genomas de Referência do Azure Open Datasets

Vários dados públicos de genoma foram carregados como um conjunto de dados aberto do Azure aqui. Criamos um serviço de blob vinculado a esse conjunto de dados aberto. Você pode encontrar exemplos de procedimento de chamada de dados no Azure Open Datasets para o conjunto de dados Reference Genomes abaixo:

Os usuários podem chamar e baixar o seguinte caminho com este notebook: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt '

Observação importante: os usuários precisam fazer logoff em sua conta do Azure por meio da CLI do Azure para exibir os dados com o SDK do Azure ML. Por outro lado, eles não precisam fazer nenhuma ação para baixar os dados.

Instale a CLI do Azure.

Chamando os dados dos 'Conjunto de dados de Genoma de Referência'

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)

from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()

import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))

import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Baixar o arquivo específico

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.

Compartilhar via