1000 Genomes
Projekt 1000 Genomes běžel mezi lety 2008 a 2015, aby vytvořil největší veřejný katalog lidských variací a dat genomu. Finální datová sada obsahuje údaje o 2 504 jednotlivcích z 26 populací a 84 milionů identifikovaných variant. Další informace najdete na webu 1000 Genome Project a v těchto publikacích:
Další informace o příslušných formátech dat najdete v tomto zdroji .
[NOVÝ]: Datová sada je dostupná také ve formátu parquet.
Poznámka:
Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Zdroj dat
Tato datová sada je zrcadlem tohoto prostředku FTP.
Objemy dat a frekvence aktualizací
Tato datová sada obsahuje přibližně 815 TB dat. Dostává denní aktualizace.
Dočasné úložiště
Tato datová sada se uchovává v těchto oblastech Azure: USA – středozápad a USA – západ 2. Pro spřažení doporučujeme umístit výpočetní prostředky do oblasti USA – západ 2 nebo USA – středozápad.
Přístup k datům
USA – západ 2:"https://dataset1000genomes.blob.core.windows.net/dataset""
USA – středozápad: "https://dataset1000genomes-secondary.blob.core.windows.net/dataset"
Podmínky použití
Po finálních publikacích jsou data z projektu 1000 Genomes veřejně dostupná, aniž by bylo možné používat data z projektu 1000 Genomes. Použití dat by mělo být citováno podle podrobností dostupných v prostředku 1000 Genome Project FAQ.
Kontakt
Posuňte se dolů u tohoto zdroje informací o kontaktech.
Další kroky
Prohlédněte si zbývající datové sady v katalogu Open Datasets.