Поделиться через


Genomics Data Lake

Озеро данных по геномике содержит различные общедоступные бесплатные наборы данных, которые можно включать в рабочие процессы и приложения для анализа генома. Эти наборы данных содержат геномные последовательности, сведения о вариантах и метаданные subject/sample (субъект/выборка) в форматах BAM, FASTA, VCF и CSV.

Набор данных Genomics Data Lake хранится в регионах Azure "Западная часть США 2" и "Центрально-западная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионах "Западная часть США 2" и "Центрально-западная часть США".

Примечание.

Использование наборов данных регулируется условиями, установленными владельцами наборов данных. Применимые условия использования см. на странице со сведениями о каждом наборе данных.

Наборы данных

Наборы данных Description
Illumina Platinum Genomes Illumina Platinum Genomes
Human Reference Genomes Human Reference Genomes
ClinVar Annotations ClinVar Annotations
SnpEff SnpEff: заметки по варианту Genomic и панель инструментов прогнозирования функциональных эффектов
gnomAD gnomAD: база данных агрегирования генома
1000 геномов 1000 геномов
OpenCravat OpenCravat: открытие пользовательского анализа вариантов набора средств
ENCODE КОДИРОВАНИЕ: Энциклопедия элементов ДНК
Пакет ресурсов GATK Пакет ресурсов GATK
Открытые данные TCGA Открытые данные TCGA
Pan UK-Biobank Pan UK-Biobank
База данных ImmuneCODE База данных ImmuneCODE
Набор данных Open Targets Набор данных Open Targets

Следующие шаги

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.