Genome Aggregation Database (gnomAD)
Genome Aggregation Database (gnomAD) ist eine von einem internationalen Forscherzusammenschluss entwickelte Ressource. Sie dient dem Zweck, Exom- und Genomsequenzierungsdaten aus zahlreichen großen Sequenzierungsprojekten zu aggregieren, zu vereinheitlichen und der Wissenschaft in zusammengefasster Form zur Verfügung zu stellen.
Hinweis
Microsoft stellt Datasets der Plattform Azure Open Datasets auf einer „As is“-Basis (d. h. ohne Mängelgewähr) zur Verfügung. Microsoft übernimmt weder ausdrücklich noch stillschweigend die Gewährleistung für Ihre Nutzung der Datasets und sichert keinerlei Garantien oder Bedingungen zu. Soweit nach örtlich anwendbarem Recht zulässig, lehnt Microsoft jegliche Haftung für Schäden oder Verluste ab. Dies schließt direkte, indirekte, besondere oder zufällige Schäden oder Verluste sowie Folge- und Strafschäden und damit verbundene Verluste ein, die sich aus Ihrer Nutzung der Datasets ergeben.
Für die Bereitstellung dieses Datasets gelten die ursprünglichen Nutzungsbedingungen, unter denen Microsoft die Quelldaten bezogen hat. Das Dataset kann Daten von Microsoft enthalten.
Datenquelle
Dieses Dataset wird in Zusammenarbeit mit dem Broad Institute gehostet. Den vollständigen gnomAD-Datenkatalog finden Sie unter https://gnomad.broadinstitute.org/downloads.
Datenvolumes und Aktualisierungshäufigkeit
Dieses Dataset enthält etwa 30 TB Daten und wird mit jedem gnomAD-Release aktualisiert.
Speicherort
Das Speicherkonto für dieses Dataset befindet sich in der Azure-Region „USA, Osten“. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in der Region „USA, Osten“ empfohlen.
Datenzugriff
Speicherkonto: https://datasetgnomad.blob.core.windows.net/dataset/
Diese Daten sind uneingeschränkt öffentlich verfügbar, und für Massenvorgänge wird das Tool „AzCopy“ empfohlen. So zeigen Sie beispielsweise die VCF-Dateien im Release 3.0 von gnomAD an:
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
So laden Sie alle VCF-Dateien rekursiv herunter:
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
NEU: Parquet-Format von gnomAD v2.1.1-VCF-Dateien (Exome und Genome)
So zeigen Sie die Parquet-Dateien an
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
So laden Sie alle Parquet-Dateien rekursiv herunter
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
Der Azure Storage-Explorer ist zum Durchsuchen der Dateiliste im gnomAD-Release ebenfalls nützlich.
Nutzungsbedingungen
Die Daten stehen uneingeschränkt zur Verfügung. Weitere Informationen und Zitatdetails finden Sie auf der Infoseite zu gnomAD.
Contact
Bei Fragen oder Feedback zu diesem Dataset wenden Sie sich an das gnomAD-Team.
Nächste Schritte
Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.