Anotações do ClinVar
O recurso ClinVar é um arquivo público de relatórios acessível livremente – com evidências comprobatórias – sobre as relações entre variações humanas e fenótipos. Ele facilita o acesso e a comunicação sobre as supostas relações entre a variação humana e o status de saúde observado, e sobre o histórico dessa interpretação. Fornece acesso a um conjunto mais amplo de interpretações clínicas que os pesquisadores podem incorporar em fluxos de trabalho e aplicações de genômica.
Visite o Dicionário de Dados e o recurso de perguntas frequentes para obter mais informações sobre os dados.
Observação
A Microsoft fornece o Azure Open Datasets no estado em que se encontra. A Microsoft não oferece garantias nem coberturas, expressas ou implícitas, em relação ao uso dos conjuntos de dados. Até o limite permitido pela legislação local, a Microsoft se exime de toda a obrigação por danos ou perdas, inclusive diretos, consequentes, especiais, indiretos, acidentais ou punitivos, resultantes do uso dos conjuntos de dados.
Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.
Fonte de dados
Esse conjunto de dados é um espelho do recurso FTP da Biblioteca Nacional de Medicina ClinVar. Recurso FTP
Frequência de atualização de dados
Esse conjunto de dados recebe atualizações diárias.
Local de armazenamento
Este conjunto de dados está armazenado nas regiões do Azure Oeste dos EUA 2 e Centro-Oeste dos EUA. É recomendável alocar recursos de computação no Oeste dos EUA 2 ou no Centro-Oeste dos EUA por questão de afinidade.
Acesso aos Dados
Oeste EUA 2:"https://datasetclinvar.blob.core.windows.net/dataset'"
Centro-Oeste dos EUA: "https://datasetclinvar-secondary.blob.core.windows.net/dataset"
Termos de uso
Os dados estão disponíveis sem restrições. Para obter mais informações e detalhes de citação, confira Acessando e usando dados no ClinVar.
Contact
Para dúvidas ou comentários sobre esses conjuntos de dados, entre em contato pelo endereço clinvar@ncbi.nlm.nih.gov.
Azure Notebooks
Obter os dados do ClinVar no Azure Open Dataset
Vários recursos de dados de genômica pública foram carregados como Azure Open Dataset neste recurso.
Chamando os dados de “ClinVar Data Set”
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
Baixar o arquivo específico
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')
Próximas etapas
Exiba o restante dos conjuntos de dados no catálogo do Open Datasets.