Lago de datos de Genomics
El lago de datos de Genomics proporciona una gran variedad de conjuntos de datos públicos de acceso gratuito que puede integrar en sus aplicaciones y flujos de trabajo de análisis genómicos. Los conjuntos de datos incluyen secuencias genómicas, información de las variantes y metadatos sobre las muestras o los sujetos con los formatos de archivo BAM, FASTA, VCF y CSV.
El lago de datos Genomics Data Lake se hospeda en las regiones Oeste de EE. UU. 2 y Centro-oeste de EE. UU. de Azure. Por afinidad, se recomienda asignar recursos de proceso de estas dos regiones.
Nota
El uso de los conjuntos de datos está sujeto a los términos y condiciones establecidos por sus propietarios. Vea la página de detalles de cada conjunto de datos para consultar los términos y condiciones aplicables.
Conjuntos de datos
Conjuntos de datos | Descripción |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Human Reference Genomes | Human Reference Genomes |
ClinVar Annotations | ClinVar Annotations |
SnpEff | SnpEff: cuadro de herramientas para predicciones de efectos funcionales y anotaciones de variantes genómicas |
gnomAD | gnomAD: Genome Aggregation Database |
1000 Genomes | 1000 Genomes |
OpenCravat | OpenCravat: Open Custom Ranked Analysis of Variants Toolkit |
ENCODE | ENCODE: Encyclopedia of DNA Elements |
Lote de recursos de GATK | Lote de recursos de GATK |
Datos abiertos de TCGA | Datos abiertos de TCGA |
Pan UK-Biobank | Pan UK-Biobank |
Base de datos de ImmuneCODE | Base de datos de ImmuneCODE |
Conjunto de datos de Open Targets | Conjunto de datos de Open Targets |
Pasos siguientes
Consulte el resto de los conjuntos de datos en el catálogo de Open Datasets.