Agregační databáze genomu (gnomAD)
Genome Aggregation Database (gnomAD) je zdroj vyvinutý mezinárodní koalicí vyšetřovatelů, s cílem agregace a harmonizace exome a genomu sekvencování dat z široké škály rozsáhlých sekvenčních projektů a zpřístupnění souhrnných dat širší vědecké komunitě.
Poznámka:
Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Zdroj dat
Tato datová sada je hostovaná ve spolupráci s Broad Institute a úplný kompletní katalog dat gnomAD najdete na adrese https://gnomad.broadinstitute.org/downloads
Objemy dat a frekvence aktualizací
Tato datová sada obsahuje přibližně 30 TB dat a aktualizuje se při každém vydání gnomAD.
Dočasné úložiště
Účet úložiště hostující tuto datovou sadu je v oblasti Azure USA – východ. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.
Přístup k datům
Účet úložiště: 'https://datasetgnomad.blob.core.windows.net/dataset/'
Data jsou veřejně dostupná bez omezení a nástroj AzCopy se doporučuje pro hromadné operace. Pokud si například chcete zobrazit VCF ve verzi gnomAD 3.0:
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
Pokud chcete stáhnout všechny VCF rekurzivně:
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
NOVINKA: Formát Parquet souborů GnomAD v2.1.1 VCF (exomes a genomes)
Zobrazení souborů parquet:
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
Pokud chcete stáhnout všechny soubory parquet rekurzivně:
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
Pro procházení seznamu souborů ve vydané verzi gnomAD je také užitečný nástroj Průzkumník služby Azure Storage.
Podmínky použití
Data jsou k dispozici bez omezení. Další informace a podrobnosti o citaci najdete na stránce gnomAD.
Kontakt
Pokud máte jakékoli dotazy nebo zpětnou vazbu k této datové sadě, obraťte se na tým gnomAD.
Další kroky
Prohlédněte si zbývající datové sady v katalogu Open Datasets.