Baza danych agregacji genome (gnomAD)
Baza danych agregacji genome (gnomAD) jest zasobem opracowanym przez międzynarodową koalicję badaczy, mającą na celu agregowanie i zharmonizowanie zarówno danych sekwencjonowania exome, jak i genomu z wielu różnych projektów sekwencjonowania na dużą skalę i udostępnianie danych podsumowania dla szerszej społeczności naukowej.
Uwaga
Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.
Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.
Źródło danych
Ten zestaw danych jest hostowany we współpracy z instytutem Broad Institute, a pełny katalog danych gnomAD można znaleźć pod adresem https://gnomad.broadinstitute.org/downloads
Woluminy danych i częstotliwość aktualizacji
Ten zestaw danych zawiera około 30 TB danych i jest aktualizowany wraz z każdą wersją bazy danych gnomAD.
Lokalizacja usługi Storage
Konto magazynu hostujące ten zestaw danych znajduje się w regionie Wschodnie stany USA platformy Azure. Zalecamy przydzielanie zasobów obliczeniowych w regionie Wschodnie stany USA z uwagi na koligację.
Dostęp do danych
Konto magazynu: "https://datasetgnomad.blob.core.windows.net/dataset/"
Dane są dostępne publicznie bez ograniczeń, a narzędzie AzCopy jest zalecane w przypadku operacji zbiorczych. Aby na przykład wyświetlić pliki VCF w wersji 3.0 bazy danych gnomAD:
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
Aby cyklicznie pobrać wszystkie pliki VCF:
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
NOWY: Format Parquet plików VCF gnomAD w wersji 2.1.1 (exomes i genomes)
Aby wyświetlić pliki parquet:
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
Aby pobrać wszystkie pliki parquet rekursywnie:
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
Eksplorator usługi Azure Storage jest również użytecznym narzędziem do przeglądania listy plików w wersji bazy danych gnomAD.
Warunki użytkowania
Dane są dostępne bez ograniczeń. Aby uzyskać więcej informacji i szczegółów cytatu, zobacz stronę gnomAD na temat.
Kontakt biznesowy
W przypadku pytań lub opinii dotyczących tego zestawu danych skontaktuj się z zespołem gnomAD.
Następne kroki
Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).