Human Reference Genomes
Este conjunto de datos incluye dos referencias de genoma humano ensambladas por Genome Reference Consortium: Hg19 y Hg38.
Para obtener más información sobre los datos de Hg19 (GRCh37), lea el informe sobre GRCh37 de NCBI.
Para obtener más información sobre los datos de Hg38, lea el informe sobre GRCh38 de NCBI.
Encontrará más información sobre los datos en el sitio de RefSeq de NCBI.
Nota
Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.
Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.
Origen de datos
El contenido de este conjunto de datos procede de dos ubicaciones FTP:
Los nombres de los blobs tienen un prefijo que comienza con el segmento "vertebrate_mammalian" del URI.
Volúmenes de datos y frecuencia de actualización
Este conjunto de datos contiene unos 10 GB de datos y se actualiza a diario.
Ubicación de almacenamiento
Este conjunto de datos se almacena en las regiones oeste de EE. UU. 2, Centro-oeste de EE. UU. y Centro-sur de EE. UU. de Azure. Se recomienda asignar recursos de proceso en Oeste de EE. UU. 2 o Centro-oeste de EE. UU. o Centro-sur de EE. UU. para la afinidad.
Acceso a datos
Oeste de EE. UU. 2: "https://datasetreferencegenomes.blob.core.windows.net/dataset"
Centro-oeste de EE. UU.: "https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset"
Centro-sur de EE. UU.: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'
Términos de uso
Los datos están disponibles sin restricciones. Para obtener más información y detalles de cita, vea el sitio de la base de datos de secuencias de referencia de NCBI.
Contacto
Si tiene alguna pregunta o comentario sobre este conjunto de datos, póngase en contacto con Genome Reference Consortium.
Acceso a datos
Azure Notebooks
Obtención de los genomas de referencia de Azure Open Datasets
Varios datos de genómica públicos se han cargado como un conjunto de datos de Azure Open Datasets aquí. Creamos un servicio de blob vinculado a este conjunto de datos abierto. Puede encontrar ejemplos de procedimientos de llamada de datos de Azure Open Datasets para el conjunto de datos Reference Genomes
a continuación:
Los usuarios pueden llamar a la ruta siguiente y descargarla con este cuaderno: "https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt"
Nota importante: Los usuarios deben iniciar sesión en su cuenta de Azure a través la CLI de Azure para ver los datos con el SDK de Azure ML. Por otro lado, no necesitan realizar ninguna acción para descargar los datos.
Instalación de la CLI de Azure.
Llamada a los datos desde "Conjuntos de datos de genomas de referencia"
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')
# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata
Descarga del archivo específico
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')
Pasos siguientes
Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.