Udostępnij za pośrednictwem


1000 Genomes

Projekt 1000 Genomes został uruchomiony w latach 2008-2015, aby utworzyć największy publiczny wykaz danych odmian ludzkich i genotypów. Końcowy zestaw danych zawiera dane dla 2504 osób z 26 populacji i 84 miliony zidentyfikowanych wariantów. Aby uzyskać więcej informacji, odwiedź witrynę internetową 1000 Genome Project i następujące publikacje:

Analiza pilotażowa: mapa odmiany genomu ludzkiego z sekwencjonowania w skali populacji Nature 467, 1061-1073 (28 października 2010 r.)

Analiza fazy 1: zintegrowana mapa odmian genetycznych z 1092 ludzkich genomów Nature 491, 56-65 (01 listopada 2012 r.)

Analiza fazy 3: globalne odniesienie do zmienności genetycznej ludzkiej Natury 526, 68-74 (01 października 2015 r.) i Zintegrowana mapa zmienności strukturalnej w 2504 ludzkich genomach Nature 526, 75-81

Odwiedź ten zasób , aby uzyskać więcej informacji na temat odpowiednich formatów danych.

[NOWY]: Zestaw danych jest również dostępny w formacie parquet.

Uwaga

Firma Microsoft udostępnia zestawy danych Platformy Azure open na zasadzie "tak, jak to jest". Firma Microsoft nie udziela żadnych gwarancji, wyraźnych lub domniemanych, gwarancji ani warunków w odniesieniu do korzystania z zestawów danych. W zakresie dozwolonym zgodnie z prawem lokalnym firma Microsoft nie ponosi odpowiedzialności za wszelkie szkody lub straty, w tym bezpośrednie, wtórne, specjalne, pośrednie, przypadkowe lub karne wynikające z korzystania z zestawów danych.

Zestaw danych jest udostępniany zgodnie z pierwotnymi warunkami, na jakich firma Microsoft otrzymała dane źródłowe. Zestaw danych może zawierać dane pozyskane z firmy Microsoft.

Źródło danych

Ten zestaw danych jest dublowaniem tego zasobu FTP.

Woluminy danych i częstotliwość aktualizacji

Ten zestaw danych zawiera około 815 TB danych. Otrzymuje codzienne aktualizacje.

Lokalizacja usługi Storage

Ten zestaw danych jest przechowywany w regionach świadczenia platformy Azure: Zachodnie stany USA 2 i Zachodnio-środkowe stany USA. Zalecamy lokalizowanie zasobów obliczeniowych w regionie Zachodnie stany USA 2 lub Zachodnio-środkowe stany USA w celu koligacji.

Dostęp do danych

Zachodnie stany USA 2:"https://dataset1000genomes.blob.core.windows.net/dataset""

Zachodnie środkowe stany USA: "https://dataset1000genomes-secondary.blob.core.windows.net/dataset"

Warunki użytkowania

Po końcowych publikacjach dane z projektu Genomes 1000 są publicznie dostępne, bez embargo, do każdego, kto będzie używany zgodnie z warunkami dostarczonymi przez źródło zestawu danych. Użycie danych powinno być cytowane według szczegółów dostępnych w zasobie 1000 Projekt genome — często zadawane pytania.

Kontakt biznesowy

Przewiń w dół ten zasób , aby uzyskać informacje kontaktowe.

Następne kroki

Wyświetl pozostałe zestawy danych w katalogu Open Datasets (Otwieranie zestawów danych).