Genomics Data Lake
Genomics Data Lake는 무료로 액세스하고 유전체학 분석 워크플로 및 애플리케이션에 통합할 수 있는 다양한 퍼블릭 데이터 세트를 제공합니다. 이 데이터 세트는 BAM, FASTA, VCF, CSV 파일 형식의 게놈 시퀀스, 변이 정보 및 주제/샘플 메타데이터를 포함합니다.
게놈 데이터 레이크는 미국 서부 2 및 미국 중서부 Azure 지역에서 호스트됩니다. 선호도를 위해 미국 서부 2 및 미국 중서부에 컴퓨팅 리소스를 할당하는 것이 좋습니다.
참고 항목
데이터 세트 사용에는 데이터 세트 소유자가 설정한 계약조건이 적용됩니다. 해당 계약조건은 각 데이터 세트의 세부 정보 페이지를 참조하세요.
데이터 집합
데이터 집합 | 설명 |
---|---|
Illumina Platinum Genomes | Illumina Platinum Genomes |
Human Reference Genomes | Human Reference Genomes |
ClinVar Annotations | ClinVar Annotations |
SnpEff | SnpEff: 게놈 변형 주석 및 기능 영향 예측 도구 상자 |
gnomAD | gnomAD: Genome Aggregation Database |
1000 Genomes | 1000 Genomes |
OpenCravat | OpenCravat: 변이의 순위가 지정된 개방형 사용자 지정 분석 도구 키트 |
ENCODE | ENCODE: DNA 요소 Encyclopedia |
GATK 리소스 번들 | GATK 리소스 번들 |
TCGA 공개 데이터 | TCGA 공개 데이터 |
Pan UK-Biobank | Pan UK-Biobank |
ImmuneCODE 데이터베이스 | ImmuneCODE 데이터베이스 |
대상 데이터 세트 열기 | 대상 데이터 세트 열기 |
다음 단계
Open Datasets 카탈로그에서 나머지 데이터 세트를 봅니다.