Genomics Data Lake

Статья
10/18/2024

Озеро данных по геномике содержит различные общедоступные бесплатные наборы данных, которые можно включать в рабочие процессы и приложения для анализа генома. Эти наборы данных содержат геномные последовательности, сведения о вариантах и метаданные subject/sample (субъект/выборка) в форматах BAM, FASTA, VCF и CSV.

Набор данных Genomics Data Lake хранится в регионах Azure "Западная часть США 2" и "Центрально-западная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионах "Западная часть США 2" и "Центрально-западная часть США".

Примечание.

Использование наборов данных регулируется условиями, установленными владельцами наборов данных. Применимые условия использования см. на странице со сведениями о каждом наборе данных.

Наборы данных

Наборы данных	Description
Illumina Platinum Genomes	Illumina Platinum Genomes
Human Reference Genomes	Human Reference Genomes
ClinVar Annotations	ClinVar Annotations
SnpEff	SnpEff: заметки по варианту Genomic и панель инструментов прогнозирования функциональных эффектов
gnomAD	gnomAD: база данных агрегирования генома
1000 геномов	1000 геномов
OpenCravat	OpenCravat: открытие пользовательского анализа вариантов набора средств
ENCODE	КОДИРОВАНИЕ: Энциклопедия элементов ДНК
Пакет ресурсов GATK	Пакет ресурсов GATK
Открытые данные TCGA	Открытые данные TCGA
Pan UK-Biobank	Pan UK-Biobank
База данных ImmuneCODE	База данных ImmuneCODE
Набор данных Open Targets	Набор данных Open Targets

Следующие шаги

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.

Поделиться через

Genomics Data Lake

Наборы данных

Следующие шаги

Обратная связь

Дополнительные ресурсы