Compartilhar via


1000 Genomas

O Projeto 1000 Genomas foi executado entre 2008 e 2015, para criar o maior catálogo público de dados de variação humana e genótipo. O conjunto de dados final conta com informações sobre 2.504 indivíduos de 26 populações e 84 milhões de variantes identificadas. Para obter mais informações, visite o site do Projeto 1000 Genoma e estas publicações:

Análise Piloto: Um mapa da variação do genoma humano do sequenciamento em escala populacional Nature 467, 1061-1073 (28 de outubro de 2010)

Análise da Fase 1: Um mapa integrado da variação genética de 1.092 genomas humanos Nature 491, 56-65 (01 de novembro de 2012)

Análise da Fase 3: Uma referência global para variação genética humana Natureza 526, 68-74 (01 de outubro de 2015) e Um mapa integrado da variação estrutural em 2.504 genomas humanos Natureza 526, 75-81

Visite este recurso para obter mais informações sobre os formatos de dados relevantes.

[NOVO] o conjunto de dados também está disponível no formato parquet.

Observação

A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.

Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.

Fonte de dados

Esse conjunto de dados é um espelho desse recurso FTP.

Volumes de dados e frequência de atualização

Esse conjunto de dados contém aproximadamente 815 TB de dados. Ele recebe atualizações diárias.

Local de armazenamento

Este conjunto de dados está armazenado nas regiões do Azure Oeste dos EUA 2 e Centro-Oeste dos EUA. É recomendável alocar recursos de computação no Oeste dos EUA 2 ou no Centro-Oeste dos EUA por questão de afinidade.

Acesso de dados

Oeste EUA 2:"https://dataset1000genomes.blob.core.windows.net/dataset'"

Centro-Oeste dos EUA: "https://dataset1000genomes-secondary.blob.core.windows.net/dataset"

Termos de uso

Após as publicações finais, os dados do Projeto 1000 Genomas ficarão disponíveis sem restrições para qualquer pessoa usar de acordo com as condições previstas pela origem do conjunto de dados. O uso dos dados deve ser citado por detalhes disponíveis no recurso de perguntas frequentes do Projeto 1000 Genoma.

Contato

Role para baixo neste recurso para obter as informações de contato.

Próximas etapas

Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.