次の方法で共有


1000 ゲノム

1000 Genomes Project は 2008 年から 2015 年にかけて実施され、ヒトの多様性と遺伝子型データの最大の公開カタログが作成されました。 最終的なデータ セットには、26 の母集団からの 2,504 人のデータと、特定された 8,400 万の変異が含まれています。 詳細については、1000 Genomes Project の Web サイトと以下の出版物をご覧ください。

パイロット解析: A map of human genome variation from population-scale sequencing Nature 467, 1061-1073 (2010 年 10 月 28 日)

第 1 相解析: An integrated map of genetic variation from 1,092 human genomes Nature 491, 56-65 (2012 年 11 月 1 日)

第 3 相解析: A global reference for human genetic variation Nature 526, 68-74 (01 October 2015) and An integrated map of structural variation in 2,504 human genomes Nature 526, 75-81

関連するデータ形式の詳細については、このリソースを参照してください。

[NEW]: データセットは Parquet 形式でも使用できます。

Note

Microsoft は、Azure Open Datasets を "現状有姿" で提供します。 Microsoft は、データセットの使用に関して、明示または黙示を問わず、いかなる保証も行わないものとし、条件を定めることもありません。 現地の法律の下で認められている範囲内で、Microsoft は、データセットの使用に起因する、直接的、派生的、特別、間接的、偶発的、または懲罰的なものを含めたいかなる損害または損失に対しても一切の責任を負わないものとします。

このデータセットは、Microsoft がソース データを受け取った元の条件に基づいて提供されます。 データセットには、Microsoft が提供するデータが含まれている場合があります。

データ ソース

このデータセットは、こちらの FTP リソースのミラーです。

データ量と更新の頻度

このデータセットには約 815 TB のデータが含まれています。 これは毎日更新されます。

保存先

このデータセットは米国西部 2 および米国中西部 Azure リージョンに保存されています。 アフィニティのため、米国西部 2 または米国中西部にコンピューティング リソースを割り当てることをお勧めします。

データ アクセス

米国西部 2: "https://dataset1000genomes.blob.core.windows.net/dataset'"

米国中西部: "https://dataset1000genomes-secondary.blob.core.windows.net/dataset"

使用条件

最終的に出版された後、1000 Genomes Project のデータは、データセットの提供元が提供する条件の下で、誰もが制限なく利用できるようになりました。 データの使用は、1000 Genome Project の FAQ リソースに記載されている詳細に従って引用する必要があります。

お問い合わせ先

連絡先情報については、こちらのリソースで下方にスクロールします。

次のステップ

Open Datasets カタログの残りのデータセットを表示します。