共用方式為


基因組彙總資料庫 (gnomAD)

基因組彙總資料庫 (gnomAD) 是由各國研究者聯合開發的資源,其目標是將來自眾多大規模排序專案中的外顯子和基因組排序資料進行彙總且維持一致性,並為更多科學團體提供摘要資料。

注意

Microsoft 依「現況」提供 Azure 開放資料集。 針對 貴用戶對資料集的使用方式,Microsoft 不提供任何明示或默示的擔保、保證或條件。 在 貴用戶當地法律允許的範圍內,針對因使用資料集而導致的任何直接性、衍生性、特殊性、間接性、附隨性或懲罰性損害或損失,Microsoft 概不承擔任何責任。

此資料集是根據 Microsoft 接收來源資料的原始條款所提供。 資料集可能包含源自 Microsoft 的資料。

資料來源

此資料集與 Broad Institute 共同合作,可以在下列位置看到完整的 gnomAD 資料目錄:https://gnomad.broadinstitute.org/downloads

資料量和更新頻率

本資料集包含約 30 TB 的資料,並隨每個 gnomAD 版本更新。

儲存位置

裝載此資料集的儲存體帳戶位於「美國東部」Azure 區域。 建議您在美國東部配置計算資源,以確保同質性。

資料存取

儲存體帳戶:'https://datasetgnomad.blob.core.windows.net/dataset/'

該資料可公開存取不受限制,而 AzCopy 工具建議用於大量作業。 例如,若要在 gnomAD 3.0 版中檢視 VCF:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

若要以遞迴方式下載所有 VCF:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

新增:gnomAD v2.1.1 VCF 檔案的 Parquet 格式 (exomes 與基因)

若要檢視 parquet 檔案:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

若要以遞迴方式下載所有 Parquet 檔案:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

Azure 儲存體總管對於在 gnomAD 版本中瀏覽檔案清單也相當實用。

使用條款

資料可供使用且不受限制。 如需詳細資訊及引文詳細資料,請參閱 gnomAD 資訊頁面

連絡人

如有任何此資料集的問題或意見反應,請連絡 gnomAD 小組

下一步

檢視開放資料集目錄中的其餘資料集。