Compartir a través de


1000 Genomes

Nota:

Actualización importante 19/9/2024: todas las direcciones URL cambian. Habilitamos el acceso público a todos los contenedores de Genomics Data Lake. Las “direcciones URL firmadas” existentes (firmas de acceso compartido) se retirarán en: 2024-11-04T00:00:00Z. A partir de ese momento, las direcciones URL sin una cadena de consulta seguirán funcionando, pero las “URL firmadas” dejarán de funcionar y devolverán un código de estado HTTP 403. Planifique en consecuencia el acceso a las direcciones URL públicas sin cadena de consulta a partir de esta fecha (elimine el carácter '?' y los caracteres finales).

El Proyecto 1000 Genomas se llevó a cabo entre 2008 y 2015, y supuso la creación del mayor catálogo público de datos de variantes y genotipos humanos. El conjunto de datos definitivo contiene datos de 2504 personas de 26 poblaciones y 84 millones de variantes identificadas. Si desea obtener más información, visite el sitio web del Proyecto 1000 Genomas y las siguientes publicaciones:

Análisis piloto: Un mapa de la variación del genoma humano a partir de la secuenciación a escala poblacional Nature 467, 1061-1073 (28 de octubre de 2010)

Análisis de fase 1: Un mapa integrado de la variación genética de 1092 genomas humanos Nature 491, 56-65 (1 noviembre de 2012)

Análisis de fase 3: Una referencia global de la variación genética humana Nature 526, 68-74 (1 de octubre de 2015) y Un mapa integrado de la variación estructural en 2504 genomas humanos Nature 526, 75-81

Visite este recurso para obtener más información sobre los formatos de datos pertinentes.

[NUEVO] El conjunto de datos también está disponible en formato Parquet.

Nota:

Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.

Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.

Origen de datos

Este conjunto de datos es un reflejo de este recurso FTP.

Volúmenes de datos y frecuencia de actualización

Este conjunto de datos contiene aproximadamente 815 TB de datos. Recibe actualizaciones diarias.

Términos de uso

Después de las publicaciones definitivas, los datos del Proyecto 1000 Genomas están disponibles públicamente sin restricciones para que cualquier persona pueda usarlos conforme a los términos que proporciona el origen del conjunto de datos. El uso de los datos debe citarse según los detalles disponibles en el recurso de preguntas frecuentes del Proyecto 1000 Genomas.

Contacto

Desplácese hacia abajo en este recurso para obtener la información de contacto.

Pasos siguientes

Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.