1000 Genomes
Im Rahmen des von 2008 bis 2015 durchgeführten 1000 Genomes Project entstand der größte öffentliche Katalog mit Daten zu menschlichen Variationen und Genotypdaten. Das finale Dataset enthält Daten zu 2.504 Personen aus 26 Populationen sowie 84 Millionen identifizierten Varianten. Weitere Informationen finden Sie auf der Website zum 1000 Genomes Project sowie in diesen Veröffentlichungen:
Besuchen Sie diese Ressource, um weitere Informationen zu den relevanten Datenformaten zu finden.
[NEU]: Das Dataset ist auch im Parquet-Format verfügbar.
Hinweis
Microsoft stellt Datasets der Plattform Azure Open Datasets auf einer „As is“-Basis (d. h. ohne Mängelgewähr) zur Verfügung. Microsoft übernimmt weder ausdrücklich noch stillschweigend die Gewährleistung für Ihre Nutzung der Datasets und sichert keinerlei Garantien oder Bedingungen zu. Soweit nach örtlich anwendbarem Recht zulässig, lehnt Microsoft jegliche Haftung für Schäden oder Verluste ab. Dies schließt direkte, indirekte, besondere oder zufällige Schäden oder Verluste sowie Folge- und Strafschäden und damit verbundene Verluste ein, die sich aus Ihrer Nutzung der Datasets ergeben.
Für die Bereitstellung dieses Datasets gelten die ursprünglichen Nutzungsbedingungen, unter denen Microsoft die Quelldaten bezogen hat. Das Dataset kann Daten von Microsoft enthalten.
Datenquelle
Dieses Dataset ist ein Spiegel von dieser FTP-Ressource.
Datenvolumes und Aktualisierungshäufigkeit
Dieses Dataset enthält ungefähr 815 GB Daten. Es erhält tägliche Updates.
Speicherort
Dieses Dataset wird in den Azure-Regionen „USA, Westen 2“ und „USA, Westen-Mitte“ gespeichert. Aus Gründen der Affinität wird die Zuweisung von Computeressourcen in den Regionen „USA, Westen 2“ oder „USA, Westen-Mitte“ empfohlen.
Datenzugriff
USA, Westen 2: „https://dataset1000genomes.blob.core.windows.net/dataset“
USA, Westen-Mitte: „https://dataset1000genomes-secondary.blob.core.windows.net/dataset"“
Nutzungsbedingungen
Seit den abschließenden Veröffentlichungen sind die Daten aus dem 1000 Genomes Project öffentlich verfügbar und können von jedem gemäß den in der Datasetquelle angegebenen Bedingungen genutzt werden. Bei der Verwendung der Daten sollten die Quellenangaben den Details folgen, die im FAQ-Ressource des 1000 Genomes Project verfügbar sind.
Contact
Scrollen Sie bei dieser Ressource nach unten, um die Kontaktinformationen zu finden.
Nächste Schritte
Machen Sie sich mit den restlichen Datasets im Open Datasets-Katalog vertraut.