1000 Genomes

Artículo
12/14/2024

El Proyecto 1000 Genomas se llevó a cabo entre 2008 y 2015, y supuso la creación del mayor catálogo público de datos de variantes y genotipos humanos. El conjunto de datos definitivo contiene datos de 2504 personas de 26 poblaciones y 84 millones de variantes identificadas. Si desea obtener más información, visite el sitio web del Proyecto 1000 Genomas y las siguientes publicaciones:

Análisis piloto: Un mapa de la variación del genoma humano a partir de la secuenciación a escala poblacional Nature 467, 1061-1073 (28 de octubre de 2010)

Análisis de fase 1: Un mapa integrado de la variación genética de 1092 genomas humanos Nature 491, 56-65 (1 noviembre de 2012)

Análisis de fase 3: Una referencia global de la variación genética humana Nature 526, 68-74 (1 de octubre de 2015) y Un mapa integrado de la variación estructural en 2504 genomas humanos Nature 526, 75-81

Visite este recurso para obtener más información sobre los formatos de datos pertinentes.

[NUEVO] El conjunto de datos también está disponible en formato Parquet.

Nota:

Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.

Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.

Origen de datos

Este conjunto de datos es un reflejo de este recurso FTP.

Volúmenes de datos y frecuencia de actualización

Este conjunto de datos contiene aproximadamente 815 TB de datos. Recibe actualizaciones diarias.

Ubicación de almacenamiento

Este conjunto de datos se almacena en las regiones Oeste de EE. UU. 2 y Centro-oeste de EE. UU. de Azure. Por afinidad, se recomienda asignar recursos de proceso de Oeste de EE. UU. 2 o Centro-oeste de EE. UU.

Acceso a datos

Oeste de EE. UU. 2 "https://dataset1000genomes.blob.core.windows.net/dataset"

Centro-oeste de EE. UU.: "https://dataset1000genomes-secondary.blob.core.windows.net/dataset"

Términos de uso

Después de las publicaciones definitivas, los datos del Proyecto 1000 Genomas están disponibles públicamente sin restricciones para que cualquier persona pueda usarlos conforme a los términos que proporciona el origen del conjunto de datos. El uso de los datos debe citarse según los detalles disponibles en el recurso de preguntas frecuentes del Proyecto 1000 Genomas.

Contacto

Desplácese hacia abajo en este recurso para obtener la información de contacto.

Pasos siguientes

Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.

Compartir vía