Datasjö för genomik

Artikel
10/18/2024

Genomics Data Lake innehåller olika offentliga datauppsättningar som du kan komma åt kostnadsfritt och integrera i arbetsflöden och program för genomikanalys. Datamängderna innehåller genomsekvenser, information om varianter samt metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.

Genomics-datasjön hanteras i Azure-regionerna USA, västra 2 och USA, västra centrala. Vi rekommenderar att beräkningsresurser allokeras i USA, västra 2 och USA, västra centrala av tillhörighetsskäl.

Kommentar

Användning av datauppsättningar omfattas av villkor som angetts av datamängdsägarna. Se informationssidan för varje datauppsättning för tillämpliga villkor.

Datauppsättningar

Datauppsättningar	beskrivning
Illumina Platinum Genomes	Illumina Platinum Genomes
Mänskligt referensgenom	Mänskligt referensgenom
ClinVar-annoteringar	ClinVar-annoteringar
SnpEff	SnpEff: Verktygslåda för genomiska variantanteckningar och funktionseffektsförutsägelse
gnomAD	gnomAD: Genome Aggregation Database
1000 Genomes	1000 Genomes
OpenCravat	OpenCravat: Öppna anpassad rangordnad analys av variantverktyg
KODA	ENCODE: Uppslagsverk av DNA-element
GATK-resurspaket	GATK-resurspaket
Öppna TCGA-data	Öppna TCGA-data
Pan UK-Biobank	Pan UK-Biobank
ImmuneCODE-databas	ImmuneCODE-databas
Öppna datauppsättningen Mål	Öppna datauppsättningen Mål

Nästa steg

Visa resten av datauppsättningarna i katalogen Öppna datamängder.

Dela via

Datasjö för genomik

Datauppsättningar

Nästa steg

Feedback

Ytterligare resurser