ClinVar Annotations
ClinVar 리소스는 인간의 변이와 표현형 사이의 관계에 대한 증거를 뒷받침하는 보고서를 무료로 액세스할 수 있는 공용 보관 계층입니다. 이는 인간 변이와 관찰된 건강 상태 사이의 주장된 관계, 그리고 그 해석의 역사에 대한 액세스와 의사소통을 용이하게 합니다. 이는 연구자가 유전체학 워크플로 및 애플리케이션에 통합할 수 있는 광범위한 임상 해석 집합에 대한 액세스를 제공합니다.
데이터에 대한 자세한 내용을 보려면 데이터 사전 및 FAQ 리소스를 참조하세요.
참고 항목
Microsoft는 Azure Open Datasets를 “있는 그대로” 제공합니다. Microsoft는 귀하의 데이터 세트 사용과 관련하여 어떠한 명시적이거나 묵시적인 보증, 보장 또는 조건을 제공하지 않습니다. 귀하가 거주하는 지역의 법규가 허용하는 범위 내에서 Microsoft는 귀하의 데이터 세트 사용으로 인해 발생하는 일체의 직접적, 결과적, 특별, 간접적, 부수적 또는 징벌적 손해 또는 손실을 비롯한 모든 손해 또는 손실에 대한 모든 책임을 부인합니다.
이 데이터 세트는 Microsoft가 원본 데이터를 받은 원래 사용 약관에 따라 제공됩니다. 데이터 세트에는 Microsoft가 제공한 데이터가 포함될 수 있습니다.
데이터 원본
이 데이터 세트는 국립 의학 도서관 ClinVar FTP 리소스에서 미러링됩니다. FTP 리소스
데이터 업데이트 빈도
이 데이터 세트는 매일 업데이트됩니다.
스토리지 위치
이 데이터 세트는 미국 서부 2 및 미국 중서부 Azure 지역에 저장됩니다. 선호도를 위해 미국 서부 2 또는 미국 중서부에서 컴퓨팅 리소스를 찾는 것이 좋습니다.
데이터 액세스
미국 서부 2:"https://datasetclinvar.blob.core.windows.net/dataset'"
미국 중서부: "https://datasetclinvar-secondary.blob.core.windows.net/dataset"
사용 약관
데이터는 제한 없이 사용할 수 있습니다. 자세한 내용 및 인용 세부 정보는 Accessing and using data in ClinVar(ClinVar에서 데이터 액세스 및 사용)를 참조하세요.
연락처
이 데이터 세트에 대한 질문이나 피드백은 clinvar@ncbi.nlm.nih.gov에 문의하세요.
Azure Notebooks
Azure Open Datasets에서 ClinVar 데이터 가져오기
여러 공용 유전체학 데이터 리소스가 이 리소스에 Azure Open Dataset로 업로드되었습니다.
‘ClinVar 데이터 세트’에서 데이터 호출
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
특정 파일 다운로드
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')
다음 단계
Open Datasets 카탈로그에서 나머지 데이터 세트를 봅니다.