Human Reference Genomes

Artículo
12/12/2024

Este conjunto de datos incluye dos referencias de genoma humano ensambladas por Genome Reference Consortium: Hg19 y Hg38.

Para obtener más información sobre los datos de Hg19 (GRCh37), lea el informe sobre GRCh37 de NCBI.

Para obtener más información sobre los datos de Hg38, lea el informe sobre GRCh38 de NCBI.

Encontrará más información sobre los datos en el sitio de RefSeq de NCBI.

Nota

Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.

Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.

Origen de datos

El contenido de este conjunto de datos procede de dos ubicaciones FTP:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Los nombres de los blobs tienen un prefijo que comienza con el segmento "vertebrate_mammalian" del URI.

Volúmenes de datos y frecuencia de actualización

Este conjunto de datos contiene unos 10 GB de datos y se actualiza a diario.

Ubicación de almacenamiento

Este conjunto de datos se almacena en las regiones oeste de EE. UU. 2, Centro-oeste de EE. UU. y Centro-sur de EE. UU. de Azure. Se recomienda asignar recursos de proceso en Oeste de EE. UU. 2 o Centro-oeste de EE. UU. o Centro-sur de EE. UU. para la afinidad.

Acceso a datos

Oeste de EE. UU. 2: "https://datasetreferencegenomes.blob.core.windows.net/dataset"

Centro-oeste de EE. UU.: "https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset"

Centro-sur de EE. UU.: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

Términos de uso

Los datos están disponibles sin restricciones. Para obtener más información y detalles de cita, vea el sitio de la base de datos de secuencias de referencia de NCBI.

Contacto

Si tiene alguna pregunta o comentario sobre este conjunto de datos, póngase en contacto con Genome Reference Consortium.

Acceso a datos

Azure Notebooks

azure-storage

Obtención de los genomas de referencia de Azure Open Datasets

Varios datos de genómica públicos se han cargado como un conjunto de datos de Azure Open Datasets aquí. Creamos un servicio de blob vinculado a este conjunto de datos abierto. Puede encontrar ejemplos de procedimientos de llamada de datos de Azure Open Datasets para el conjunto de datos Reference Genomes a continuación:

Los usuarios pueden llamar a la ruta siguiente y descargarla con este cuaderno: "https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt"

Nota importante: Los usuarios deben iniciar sesión en su cuenta de Azure a través la CLI de Azure para ver los datos con el SDK de Azure ML. Por otro lado, no necesitan realizar ninguna acción para descargar los datos.

Instalación de la CLI de Azure.

Llamada a los datos desde "Conjuntos de datos de genomas de referencia"

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)

from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()

import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))

import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Descarga del archivo específico

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Pasos siguientes

Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.

Compartir vía

Human Reference Genomes

Origen de datos

Volúmenes de datos y frecuencia de actualización

Ubicación de almacenamiento

Acceso a datos

Términos de uso

Contacto

Acceso a datos

Azure Notebooks

Obtención de los genomas de referencia de Azure Open Datasets

Llamada a los datos desde "Conjuntos de datos de genomas de referencia"

Descarga del archivo específico

Pasos siguientes

Comentarios

Recursos adicionales