Compartilhar via


Banco de Dados de Agregação de Genomas (gnomAD)

O gnomAD (Banco de Dados de Agregação de Genomas) é um recurso desenvolvido por uma coalizão internacional de investigadores com a meta de agregar e harmonizar os dados de sequenciamento de exoma e genoma de uma ampla variedade de projetos de sequenciamento em larga escala e disponibilizar dados de resumo para grande parte da comunidade científica.

Observação

A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.

Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.

Fonte de dados

Esse conjunto de dados é hospedado como uma colaboração com o Broad Institute e o catálogo de dados completo do gnomAD pode ser visto em https://gnomad.broadinstitute.org/downloads

Volumes de dados e frequência de atualização

Este conjunto de dados contém aproximadamente 30 TB de dados e é atualizado a cada versão do gnomAD.

Local de armazenamento

A conta de armazenamento que hospeda esse conjunto de dados está na região do Azure no Leste dos EUA. É recomendável alocar recursos de computação no Leste dos EUA para afinidade.

Acesso aos Dados

Conta de armazenamento: “https://datasetgnomad.blob.core.windows.net/dataset/”

Os dados estão disponíveis publicamente sem restrições e a ferramenta AzCopy é recomendada para operações em massa. Por exemplo, para exibir os VCFs na versão 3.0 do gnomAD:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

Para baixar todos os VCFs recursivamente:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

NOVO: formato Parquet de arquivos VCF gnomAD v2.1.1 (exomas e genomas)

Para ver os arquivos Parquet:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

Para baixar recursivamente todos os arquivos Parquet:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

O Gerenciador de Armazenamento do Azure também é uma ferramenta útil para navegar pela lista de arquivos na versão do gnomAD.

Termos de uso

Os dados estão disponíveis sem restrições. Para obter mais informações e detalhes da citação, confira a página sobre do gnomAD.

Contact

Para dúvidas ou comentários sobre esse conjunto de dados, entre em contato com a equipe do gnomAD.

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.