Datasjö för genomik
Genomics Data Lake innehåller olika offentliga datauppsättningar som du kan komma åt kostnadsfritt och integrera i arbetsflöden och program för genomikanalys. Datamängderna innehåller genomsekvenser, information om varianter samt metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.
Genomics-datasjön hanteras i Azure-regionerna USA, västra 2 och USA, västra centrala. Vi rekommenderar att beräkningsresurser allokeras i USA, västra 2 och USA, västra centrala av tillhörighetsskäl.
Kommentar
Användning av datauppsättningar omfattas av villkor som angetts av datamängdsägarna. Se informationssidan för varje datauppsättning för tillämpliga villkor.
Datauppsättningar
Datauppsättningar | beskrivning |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Mänskligt referensgenom | Mänskligt referensgenom |
ClinVar-annoteringar | ClinVar-annoteringar |
SnpEff | SnpEff: Verktygslåda för genomiska variantanteckningar och funktionseffektsförutsägelse |
gnomAD | gnomAD: Genome Aggregation Database |
1000 Genomes | 1000 Genomes |
OpenCravat | OpenCravat: Öppna anpassad rangordnad analys av variantverktyg |
KODA | ENCODE: Uppslagsverk av DNA-element |
GATK-resurspaket | GATK-resurspaket |
Öppna TCGA-data | Öppna TCGA-data |
Pan UK-Biobank | Pan UK-Biobank |
ImmuneCODE-databas | ImmuneCODE-databas |
Öppna datauppsättningen Mål | Öppna datauppsättningen Mål |
Nästa steg
Visa resten av datauppsättningarna i katalogen Öppna datamängder.