База данных с агрегированными сведениями о геномах (gnomAD)
База данных с агрегированными сведениями о геномах (gnomAD) — это ресурс, разработанный международным объединением исследователей с целью агрегирования и упорядочения данных экзомов и геномов из множества крупномасштабных проектов секвенирования генома. Затем эта сводная информация предоставляется широкому научному сообществу.
Примечание.
Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.
Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.
Источник данных
Этот набор данных размещен в сотрудничестве с Broad Institute. Полный каталог данных gnomAD можно найти по адресу https://gnomad.broadinstitute.org/downloads
Объемы данных и частота обновления
Этот набор данных содержит примерно 30 ТБ данных и обновляется с каждым выпуском gnomAD.
Место хранения
Учетная запись хранения, в которой размещен этот набор данных, находится в регионе Azure "Восточная часть США". Для обеспечения приближенности рекомендуется выделять вычислительные ресурсы в регионе "Восточная часть США".
Доступ к данным
Учетная запись хранения: https://datasetgnomad.blob.core.windows.net/dataset/
Доступ к данным предоставляется без ограничений. Для выполнения массовых операций рекомендуется использовать средство AzCopy. Например, чтобы просмотреть VCF в выпуске gnomAD 3.0, сделайте следующее:
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
Для рекурсивной загрузки всех VCF сделайте следующее:
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
НОВОЕ: формат Parquet для файлов VCF gnomAD версии 2.1.1 (экзомы и геномы)
Для просмотра файлов Parquet сделайте следующее.
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
Для рекурсивной загрузки всех файлов Parquet сделайте следующее.
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
Обозреватель службы хранилища Azure — также полезный инструмент для просмотра списка файлов в выпуске gnomAD.
Условия использования
Доступ к данным предоставляется без ограничений. Дополнительные сведения и сведения о ссылках см. на странице информации о gnomAD.
Контакт
Со всеми вопросами и отзывами об этом наборе данных обращайтесь к команде gnomAD.
Следующие шаги
Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.