1000 Genomes

Článek
12/12/2024

Projekt 1000 Genomes běžel mezi lety 2008 a 2015, aby vytvořil největší veřejný katalog lidských variací a dat genomu. Finální datová sada obsahuje údaje o 2 504 jednotlivcích z 26 populací a 84 milionů identifikovaných variant. Další informace najdete na webu 1000 Genome Project a v těchto publikacích:

Pilotní analýza: Mapa variace lidského genomu od sekvencování přírody 467, 1061–1073 (28. října 2010)

Analýza fáze 1: Integrovaná mapa genetické variace z 1 092 lidských genomů Nature 491, 56–65 (01. listopadu 2012)

Analýza fáze 3: Globální odkaz na lidskou genetickou variaci Nature 526, 68-74 (01. října 2015) a integrovanou mapu strukturální variace v 2 504 lidských genomech Nature 526, 75-81

Další informace o příslušných formátech dat najdete v tomto zdroji .

[NOVÝ]: Datová sada je dostupná také ve formátu parquet.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Zdroj dat

Tato datová sada je zrcadlem tohoto prostředku FTP.

Objemy dat a frekvence aktualizací

Tato datová sada obsahuje přibližně 815 TB dat. Dostává denní aktualizace.

Dočasné úložiště

Tato datová sada se uchovává v těchto oblastech Azure: USA – středozápad a USA – západ 2. Pro spřažení doporučujeme umístit výpočetní prostředky do oblasti USA – západ 2 nebo USA – středozápad.

Přístup k datům

USA – západ 2:"https://dataset1000genomes.blob.core.windows.net/dataset""

USA – středozápad: "https://dataset1000genomes-secondary.blob.core.windows.net/dataset"

Podmínky použití

Po finálních publikacích jsou data z projektu 1000 Genomes veřejně dostupná, aniž by bylo možné používat data z projektu 1000 Genomes. Použití dat by mělo být citováno podle podrobností dostupných v prostředku 1000 Genome Project FAQ.

Kontakt

Posuňte se dolů u tohoto zdroje informací o kontaktech.

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.

Sdílet prostřednictvím