Human Reference Genomes
Note
重要な更新 2024 年 9 月 19 日: すべての URL が変更されています。 すべての Genomics Data Lake コンテナーへのパブリック アクセスを有効にしています。 既存の "署名された URL" (共有アクセス署名) は、2024-11-04T00:00:00Z に廃止されます。 これより後も、クエリ文字列のない URL は引き続き機能しますが、"署名された URL" は機能しなくなり、403 HTTP 状態コードが返されます。 適宜、この日付以降にクエリ文字列のないパブリック URL にアクセスするように計画してください ('?' と末尾の文字を削除する)。
このデータセットには、Genome Reference Consortium によってアセンブルされた 2 つのヒトゲノム リファレンス (Hg19 と Hg38) が含まれています。
Hg19 (GRCh37) データの詳細については、NCBI の GRCh37 レポートをご覧ください。
Hg38 データの詳細については、NCBI の GRCh38 レポートをご覧ください。
データのその他の詳細情報については、NCBI RefSeq サイトをご覧ください。
注意
Microsoft は、Azure Open Datasets を "現状有姿" で提供します。 Microsoft は、データセットの使用に関して、明示または黙示を問わず、いかなる保証も行わないものとし、条件を定めることもありません。 現地の法律の下で認められている範囲内で、Microsoft は、データセットの使用に起因する、直接的、派生的、特別、間接的、偶発的、または懲罰的なものを含めたいかなる損害または損失に対しても一切の責任を負わないものとします。
このデータセットは、Microsoft がソース データを受け取った元の条件に基づいて提供されます。 データセットには、Microsoft が提供するデータが含まれている場合があります。
データ ソース
このデータセットのソースは次の 2 つの FTP の場所です。
BLOB 名には、"vertebrate_mammalian" で始まる URI セグメントのプレフィックスが付けられます。
データ量と更新の頻度
このデータセットには、約 10 GB のデータが含まれており、毎日更新されます。
保存先
このデータセットは、米国西部 2、米国中西部、米国中南部の Azure リージョンに格納されます。 アフィニティのため、米国西部 2、米国中西部、または米国中南部にコンピューティング リソースを割り当てることをお勧めします。
データ アクセス
米国西部 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset '
米国中西部: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset '
SAS トークン: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D
米国中南部: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'
SAS トークン: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D
使用条件
データは制限なく使用できます。 詳細および引用の詳細については、NCBI Reference Sequence Database サイトを参照してください。
Contact
このデータセットに関する質問またはフィードバックについては、Genome Reference Consortium までご連絡ください。
データ アクセス
Azure Notebooks
Azure Open Datasets から Reference Genomes を取得する
いくつかの公開ゲノミクス データが Azure Open Dataset としてこちらにアップロードされています。 このオープン データセットにリンクされている Blob service を作成します。 Reference Genomes
データセット用のデータを Azure Open Datasets から呼び出す手順の例を以下に示します。
ユーザーは、このノートブックを使用して次のパスを呼び出してダウンロードできます。'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt '
重要な注意事項: Azure ML SDK を使用してデータを表示するには、ユーザーは Azure CLI を使用して自分の Azure アカウントにログインする必要があります。 一方、データをダウンロードするためのアクションは必要ありません。
Azure CLI のインストールを実行します。
'Reference Genome Datasets' からデータを呼び出す
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')
# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata
特定のファイルをダウンロードする
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')
次の手順
Open Datasets カタログの残りのデータセットを表示します。