Genome Aggregation Database (gnomAD)
Genome Aggregation Database (gnomAD) är en resurs som utvecklats av en internationell koalition av utredare, med målet att aggregera och harmonisera både exome- och genomsekvenseringsdata från en mängd olika storskaliga sekvenseringsprojekt och göra sammanfattningsdata tillgängliga för det bredare vetenskapliga samfundet.
Kommentar
Microsoft tillhandahåller Azure Open Datasets i befintligt fall. Microsoft ger inga garantier, uttryckliga eller underförstådda garantier eller villkor för din användning av datauppsättningarna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkt, följdriktig, särskild, indirekt, tillfällig eller straffbar, till följd av din användning av datauppsättningarna.
Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.
Data source
Den här datauppsättningen är ett samarbete med Broad Institute och den fullständiga gnomAD-datakatalogen finns på https://gnomad.broadinstitute.org/downloads
Datavolymer och uppdateringsfrekvens
Den här datamängden innehåller cirka 30 TB data och uppdateras vid varje ny gnomAD-version.
Lagringsplats
Lagringskontot som är värd för denna datamängd finns i Azure-regionen Östra USA. Vi rekommenderar att beräkningsresurser tilldelas i Östra USA av tillhörighetsskäl.
Dataåtkomst
Lagringskonto: 'https://datasetgnomad.blob.core.windows.net/dataset/'
Data är tillgängliga offentligt utan begränsningar och AzCopy-verktyget rekommenderas för massåtgärder. Om du till exempel vill visa VCF-filer i version 3.0 av gnomAD:
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
Så här hämtar du alla VCF-filer rekursivt:
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
NY: Parquet-format för gnomAD v2.1.1 VCF-filer (exomes och genom)
Så här visar du parquet-filerna:
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
Så här laddar du ned alla parquet-filer rekursivt:
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
Azure Storage Explorer är också ett användbart verktyg för att bläddra i listan över filer i gnomAD-versionen.
Användningsvillkor
Data är tillgängliga utan begränsningar. Mer information och källhänvisningsinformation finns på sidan gnomAD om.
Kontakt
Om du vill ha frågor eller feedback om den här datamängden kontaktar du gnomAD-teamet.
Nästa steg
Visa resten av datauppsättningarna i katalogen Öppna datamängder.