Genomas de referência humanos
Esse conjunto de dados inclui duas referências de genomas humanos montadas pelo Consórcio de Referência de Genoma: Hg19 e Hg38.
Para obter mais informações sobre os dados de Hg19 (GRCh37), confira o relatório do GRCh37 no NCBI.
Para obter mais informações sobre os dados de Hg38, confira o relatório do GRCh38 no NCBI.
Outros detalhes sobre os dados podem ser encontrados no site RefSeq do NCBI.
Observação
A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.
Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.
Fonte de dados
Este conjunto de dados é originado de dois locais do FTP:
Os nomes de blob têm um prefixo que começa com o segmento “vertebrate_mammalian” do URI.
Volumes de dados e frequência de atualização
Este conjunto de dados contém aproximadamente 10 GB de dados e é atualizado diariamente.
Local de armazenamento
Este conjunto de dados é armazenado nas regiões do Azure Oeste dos EUA 2, Centro-Oeste dos EUA e Centro-Sul dos EUA. É recomendável alocar recursos de computação no Oeste dos EUA 2, Centro-Oeste dos EUA ou Centro-Sul dos EUA por questão de afinidade.
Acesso a dados
Oeste dos EUA 2: “https://datasetreferencegenomes.blob.core.windows.net/dataset”
Centro-Oeste dos EUA: “https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset”
Centro-Sul dos EUA: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'
Termos de uso
Os dados estão disponíveis sem restrições. Para obter mais informações e detalhes da citação, confira o site do Banco de Dados de Sequência de Referência do NCBI.
Contact
Para dúvidas ou comentários sobre esse conjunto de dados, contate o Consórcio de Referência de Genoma.
Acesso de dados
Azure Notebooks
Obtendo os Genomas de Referência do Azure Open Datasets
Vários dados públicos de genoma foram carregados como um conjunto de dados aberto do Azure aqui. Criamos um serviço de blob vinculado a esse conjunto de dados aberto. Você pode encontrar exemplos de procedimento de chamada de dados no Azure Open Datasets para o conjunto de dados Reference Genomes
abaixo:
Os usuários podem chamar e baixar o seguinte caminho com este notebook: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt '
Observação importante: os usuários precisam fazer logoff em sua conta do Azure por meio da CLI do Azure para exibir os dados com o SDK do Azure ML. Por outro lado, eles não precisam fazer nenhuma ação para baixar os dados.
Chamando os dados dos 'Conjunto de dados de Genoma de Referência'
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')
# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata
Baixar o arquivo específico
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')
Próximas etapas
Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.