1000 Genomes

아티클
12/12/2024

1000 게놈 프로젝트는 2008~2015년에 진행되어, 인간 변이와 유전자형 데이터의 최대 퍼블릭 카탈로그를 만들었습니다. 최종 데이터 세트에는 26개 모집단의 개인 2,504명과 8,400만 개의 식별된 변종에 대한 데이터가 포함되어 있습니다. 자세한 내용은 1000 게놈 프로젝트 웹 사이트 및 다음 출판물을 참조하세요.

파일럿 분석: 모집단 규모 시퀀싱을 통한 인간 게놈 변이 맵 Nature 467, 1061-1073(2010년 10월 28일)

1단계 분석: 1,092개 인간 게놈의 유전적 변이 통합 맵 Nature 491, 56-65(2012년 11월 1일)

3단계 분석: 인간 유전적 변이에 대한 글로벌 참조 Nature 526, 68-74(2015년 10월 1일) 및 2,504개 인간 게놈의 구조적 변이에 대한 통합 맵 Nature 526, 75-81

관련 데이터 형식에 대한 자세한 내용은 이 리소스를 참조하세요.

[새로운 기능]: 데이터 세트는 parquet 형식으로 사용할 수도 있습니다.

참고 항목

Microsoft는 Azure Open Datasets를 “있는 그대로” 제공합니다. Microsoft는 귀하의 데이터 세트 사용과 관련하여 어떠한 명시적이거나 묵시적인 보증, 보장 또는 조건을 제공하지 않습니다. 귀하가 거주하는 지역의 법규가 허용하는 범위 내에서 Microsoft는 귀하의 데이터 세트 사용으로 인해 발생하는 일체의 직접적, 결과적, 특별, 간접적, 부수적 또는 징벌적 손해 또는 손실을 비롯한 모든 손해 또는 손실에 대한 모든 책임을 부인합니다.

이 데이터 세트는 Microsoft가 원본 데이터를 받은 원래 사용 약관에 따라 제공됩니다. 데이터 세트에는 Microsoft가 제공한 데이터가 포함될 수 있습니다.

데이터 원본

이 데이터 세트는 이 FTP 리소스의 미러입니다.

데이터 볼륨 및 업데이트 빈도

이 데이터 세트에는 약 815TB의 데이터가 포함되어 있습니다. 매일 업데이트를 받습니다.

스토리지 위치

이 데이터 세트는 미국 서부 2 및 미국 중서부 Azure 지역에 저장됩니다. 선호도를 위해 미국 서부 2 또는 미국 중서부에서 컴퓨팅 리소스를 찾는 것이 좋습니다.

데이터 액세스

미국 서부 2:"https://dataset1000genomes.blob.core.windows.net/dataset'"

미국 중서부: "https://dataset1000genomes-secondary.blob.core.windows.net/dataset"

사용 약관

최종 게시 후 1000 게놈 프로젝트의 데이터는 데이터 세트 원본에서 제공하는 사용 약관에 따라 모든 사람이 엠바고 없이 공개적으로 사용할 수 있습니다. 데이터의 사용은 1000 게놈 프로젝트 FAQ 리소스에서 사용할 수 있는 세부 정보별로 인용되어야 합니다.

연락처

연락처 정보를 보려면 이 리소스에서 아래로 스크롤합니다.

다음 단계

Open Datasets 카탈로그에서 나머지 데이터 세트를 봅니다.

다음을 통해 공유