1000 Genomes
El Proyecto 1000 Genomas se llevó a cabo entre 2008 y 2015, y supuso la creación del mayor catálogo público de datos de variantes y genotipos humanos. El conjunto de datos definitivo contiene datos de 2504 personas de 26 poblaciones y 84 millones de variantes identificadas. Si desea obtener más información, visite el sitio web del Proyecto 1000 Genomas y las siguientes publicaciones:
Visite este recurso para obtener más información sobre los formatos de datos pertinentes.
[NUEVO] El conjunto de datos también está disponible en formato Parquet.
Nota:
Microsoft proporciona Azure Open Datasets "tal cual". Microsoft no ofrece ninguna garantía, expresa o implícita, ni condición con respecto al uso que usted haga de los conjuntos de datos. En la medida en la que lo permita su legislación local, Microsoft declina toda responsabilidad por posibles daños o pérdidas, incluidos los daños directos, consecuenciales, especiales, indirectos, incidentales o punitivos, que resulten de su uso de los conjuntos de datos.
Este conjunto de datos se proporciona bajo los términos originales con los que Microsoft recibió los datos de origen. El conjunto de datos puede incluir datos procedentes de Microsoft.
Origen de datos
Este conjunto de datos es un reflejo de este recurso FTP.
Volúmenes de datos y frecuencia de actualización
Este conjunto de datos contiene aproximadamente 815 TB de datos. Recibe actualizaciones diarias.
Ubicación de almacenamiento
Este conjunto de datos se almacena en las regiones Oeste de EE. UU. 2 y Centro-oeste de EE. UU. de Azure. Por afinidad, se recomienda asignar recursos de proceso de Oeste de EE. UU. 2 o Centro-oeste de EE. UU.
Acceso a datos
Oeste de EE. UU. 2 "https://dataset1000genomes.blob.core.windows.net/dataset"
Centro-oeste de EE. UU.: "https://dataset1000genomes-secondary.blob.core.windows.net/dataset"
Términos de uso
Después de las publicaciones definitivas, los datos del Proyecto 1000 Genomas están disponibles públicamente sin restricciones para que cualquier persona pueda usarlos conforme a los términos que proporciona el origen del conjunto de datos. El uso de los datos debe citarse según los detalles disponibles en el recurso de preguntas frecuentes del Proyecto 1000 Genomas.
Contacto
Desplácese hacia abajo en este recurso para obtener la información de contacto.
Pasos siguientes
Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.