Sdílet prostřednictvím


Agregační databáze genomu (gnomAD)

Genome Aggregation Database (gnomAD) je zdroj vyvinutý mezinárodní koalicí vyšetřovatelů, s cílem agregace a harmonizace exome a genomu sekvencování dat z široké škály rozsáhlých sekvenčních projektů a zpřístupnění souhrnných dat širší vědecké komunitě.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Zdroj dat

Tato datová sada je hostovaná ve spolupráci s Broad Institute a úplný kompletní katalog dat gnomAD najdete na adrese https://gnomad.broadinstitute.org/downloads

Objemy dat a frekvence aktualizací

Tato datová sada obsahuje přibližně 30 TB dat a aktualizuje se při každém vydání gnomAD.

Dočasné úložiště

Účet úložiště hostující tuto datovou sadu je v oblasti Azure USA – východ. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.

Přístup k datům

Účet úložiště: 'https://datasetgnomad.blob.core.windows.net/dataset/'

Data jsou veřejně dostupná bez omezení a nástroj AzCopy se doporučuje pro hromadné operace. Pokud si například chcete zobrazit VCF ve verzi gnomAD 3.0:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

Pokud chcete stáhnout všechny VCF rekurzivně:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

NOVINKA: Formát Parquet souborů GnomAD v2.1.1 VCF (exomes a genomes)

Zobrazení souborů parquet:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

Pokud chcete stáhnout všechny soubory parquet rekurzivně:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

Pro procházení seznamu souborů ve vydané verzi gnomAD je také užitečný nástroj Průzkumník služby Azure Storage.

Podmínky použití

Data jsou k dispozici bez omezení. Další informace a podrobnosti o citaci najdete na stránce gnomAD.

Kontakt

Pokud máte jakékoli dotazy nebo zpětnou vazbu k této datové sadě, obraťte se na tým gnomAD.

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.