Inicio rápido: Ejecución de un flujo de trabajo mediante el servicio Microsoft Genomics
En este inicio rápido, se cargan los datos de entrada en una cuenta de Azure Blob Storage y se ejecuta un flujo de trabajo a través del servicio Microsoft Genomics mediante el cliente Genomics de Python. Microsoft Genomics es un servicio escalable y seguro para el análisis secundario que puede procesar rápidamente un genoma; este proceso empieza por lecturas de datos sin formato y produce lecturas alineadas y llamadas a variantes.
Prerrequisitos
- Una cuenta de Azure con una suscripción activa. Cree una cuenta gratuita.
- Python 2.7.12 +, con
pip
instalado ypython
en la ruta de acceso del sistema. El cliente de Microsoft Genomics no es compatible con Python 3.
Configuración: Creación de una cuenta de Microsoft Genomics en Azure Portal
Para crear una cuenta de Microsoft Genomics, vaya a Crear una cuenta de Genomics en Azure Portal. Si aún no tiene una suscripción a Azure, cree una antes de crear una cuenta de Microsoft Genomics.
Configure la cuenta de Genomics con la siguiente información, como se muestra en la imagen anterior.
Configuración | Valor sugerido | Descripción del campo |
---|---|---|
Subscription | Nombre de la suscripción | Esta es la unidad de facturación para los servicios de Azure. Para más información sobre su suscripción, consulte el artículo Suscripciones. |
Resource group | MyResourceGroup | Los grupos de recursos le permiten agrupar varios recursos de Azure (cuenta de almacenamiento o cuenta genómica, entre otros) en un único grupo para una administración sencilla. Para más información, consulte Grupos de recursos. Para conocer cuáles son los nombres de grupo de recursos válidos, consulte el artículo Convenciones de nomenclatura. |
Nombre de cuenta | MyGenomicsAccount | Elija un identificador de cuenta único. Para ver los nombres válidos, consulte Convenciones de nomenclatura. |
Location | Oeste de EE. UU. 2 | El servicio está disponible en Oeste de EE. UU. 2, Oeste de Europa y Sudeste de Asia. |
Puede seleccionar Notificaciones en la barra de menús superior para supervisar el proceso de implementación.
Para más información sobre Microsoft Genomics, consulte ¿Qué es Microsoft Genomics?
Configuración: Instalación del cliente de Python de Microsoft Genomics
Es preciso instalar tanto Python como el cliente Python de Microsoft Genomics msgen
en el entorno local.
Instalación de Python
El cliente de Python de Microsoft Genomics es compatible con Python 2.7.12 o una versión de 2.7.xx posterior. 2.7.14 es la versión que se sugiere. Puede encontrar aquí la descarga.
Importante
Python 3.x no es compatible con Python 2.7.xx. msgen
es una aplicación de Python 2.7. Al ejecutar msgen
, asegúrese de que su entorno de Python activo usa una versión 2.7.xx de Python. Si intenta usar msgen
con una versión 3.x de Python, es posible que se produzcan errores.
Instalación del cliente de Python de Microsoft Genomics msgen
Utilice pip
de Python para instalar el cliente de Microsoft Genomics msgen
. En las siguientes instrucciones se da por hecho que Python 2.x ya está instalado en la ruta de acceso del sistema. Si tiene problemas de reconocimiento en la instalación de pip
, debe agregar Python y la subcarpeta de scripts a la ruta de acceso del sistema.
pip install --upgrade --no-deps msgen
pip install msgen
Si no desea instalar msgen
como un archivo binario para todo el sistema ni modificar paquetes de Python en todo el sistema, utilice la marca –-user
con pip
.
Si utiliza la instalación basada en paquetes o setup.py, se instalarán todos los paquetes necesarios.
Prueba del cliente de Python msgen
Para probar el cliente de Microsoft Genomics, descargue el archivo de configuración de la cuenta de Genomics. En Azure Portal, vaya a la cuenta de Genomics, para lo que debe seleccionar Todos los servicios en la parte superior izquierda y después buscar y seleccionar las cuentas de Genomics.
Seleccione la cuenta de Genomics que acaba de crear, vaya a Claves de acceso y descargue el archivo de configuración.
Pruebe que el cliente de Python de Microsoft Genomics está trabajando con el siguiente comando:
msgen list -f "<full path where you saved the config file>"
Creación de una cuenta de Microsoft Azure Storage
El servicio Microsoft Genomics espera que las entradas se almacenen como blobs en bloques en una cuenta de almacenamiento de Azure. También escribe archivos de salida como blobs en bloques en un contenedor especificado por el usuario en una cuenta de almacenamiento de Azure. Las entradas y salidas pueden residir en diferentes cuentas de almacenamiento. Si ya tiene los datos en una cuenta de almacenamiento de Azure, solo tiene que asegurarse de que se encuentran en la misma ubicación que la cuenta de Genomics. De lo contrario, se cobrarán cargos de salida cuando se ejecute el servicio Microsoft Genomics. Si aún no tiene una cuenta de Azure Storage, tendrá que crearla y cargar los datos. Aquí puede encontrar más información sobre las cuentas de Azure Storage, lo que incluye qué es una cuenta de almacenamiento y qué servicios proporciona. Para crear una cuenta de Azure Storage, vaya a Crear cuenta de almacenamiento en Azure Portal.
Configure la cuenta de almacenamiento con la siguiente información, como se muestra en la imagen anterior. Utilice la mayoría de las opciones estándar para una cuenta de almacenamiento, especificando únicamente que la cuenta es de almacenamiento de blobs, no de uso general. El almacenamiento de blobs puede ser de dos a cinco veces más rápido para cargas y descargas. El modelo de implementación predeterminado, el de Azure Resource Manager, es el recomendado.
Configuración | Valor sugerido | Descripción del campo |
---|---|---|
Subscription | Su suscripción de Azure | Para más información acerca la suscripción, consulte Suscripciones. |
Resource group | MyResourceGroup | Puede seleccionar el mismo grupo de recursos que la cuenta de Genomics. Para conocer cuáles son los nombres de grupo de recursos válidos, consulte el artículo Reglas de nomenclatura |
Nombre de la cuenta de almacenamiento | MyStorageAccount | Elija un identificador de cuenta único. Para saber cuáles son los nombres válidos, consulte Reglas de nomenclatura |
Location | Oeste de EE. UU. 2 | Para reducir tanto los cargos de salida como la latencia, utilice la misma ubicación que la de su cuenta de Genomics. |
Rendimiento | Estándar | El valor predeterminado es Estándar. Para obtener más detalles sobre las cuentas de almacenamiento Estándar y Premium, consulte Introducción a Microsoft Azure Storage |
Tipo de cuenta | BlobStorage | El almacenamiento de blobs puede ser de dos a cinco veces más rápido que el uso general para cargas y descargas. |
Replicación | Almacenamiento con redundancia local | El almacenamiento con redundancia local replica los datos en el centro de datos de la región en la que creó la cuenta de almacenamiento. Para más información, consulte Replicación de Azure Storage. |
Nivel de acceso | Acceso frecuente | Un acceso frecuente indica los objetos a los que se accederá con mayor frecuencia en la cuenta de almacenamiento. |
Luego, seleccione Revisar y crear para crear la cuenta de almacenamiento. Igual que hizo con la creación de su cuenta de Genomics, puede seleccionar Notificaciones en la barra de menús superior para supervisar el proceso de implementación.
Carga de los datos de entrada en la cuenta de almacenamiento
El servicio Microsoft Genomics espera lecturas de extremos emparejados (archivos fastq o bam) como archivos de entrada. Puede elegir entre cargar sus propios datos o explorarlos mediante los datos de muestra disponibles públicamente que se le proporcionan.
Dentro de la cuenta de almacenamiento, necesita crear un contenedor de blobs para los datos de entrada y un segundo contenedor de blobs para los datos de salida. Cargue los datos de entrada en el contenedor de blobs de entrada. Se pueden utilizar varias herramientas para ello, como Explorador de Microsoft Azure Storage, BlobPorter o AzCopy.
Ejecute un flujo de trabajo a través del servicio Microsoft Genomics mediante el cliente de Python msgen
Para ejecutar un flujo de trabajo mediante el servicio Microsoft Genomics, edite el archivo config.txt para especificar el contenedor de almacenamiento de entrada y salida para los datos. Abra el archivo config.txt que descargó de su cuenta de Genomics. Las secciones que necesita especificar son la clave de suscripción y los seis elementos de la parte inferior, el nombre de la cuenta de almacenamiento, la clave y el nombre del contenedor tanto de la entrada como de la salida. Para encontrar esta información, en Azure Portal vaya la opción Claves de acceso de su cuenta de almacenamiento, o bien hágalo directamente desde el Explorador de Azure Storage.
Si desea ejecutar GATK4, establezca el parámetro process_name
en gatk4
.
De forma predeterminada, el servicio Genomics genera archivos VCF. Si desea que la salida sea gVCF, en lugar de VCF (equivalente a -emitRefConfidence
en GATK 3.x y emit-ref-confidence
en GATK 4.x), agregue el parámetro emit_ref_confidence
al archivo config.txt y establézcalo en gvcf
, como se muestra en la figura anterior. Para volver a la salida VCF, quítela del archivo config.txt o establezca el parámetro emit_ref_confidence
en none
.
bgzip
es una herramienta que comprime el archivo vcf o gvcf, y tabix
crea un índice para el archivo comprimido. De manera predeterminada, el servicio Genomics ejecuta bgzip
y, a continuación, tabix
en la salida ".g.vcf"; sin embargo, no ejecuta estas herramientas de manera predeterminada si la salida es ".vcf". Cuando se ejecuta, el servicio genera los archivos ".gz" (salida bgzip) y ".tbi" (salida tabix). El argumento es un valor booleano, que se establece en false de forma predeterminada si la salida es ".vcf" y en true si la salida es ".g.vcf". Para usarlo en la línea de comandos, especifique -bz
o --bgzip-output
como true
(ejecute bgzip y tabix) o false
. Para usar este argumento en el archivo config.txt, agregue bgzip_output: true
o bgzip_output: false
al archivo.
Envío de un flujo de trabajo al servicio Microsoft Genomics mediante el cliente de Python msgen
Utilice el cliente de Python de Microsoft Genomics para enviar el flujo de trabajo con el siguiente comando:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
Puede ver el estado de los flujos de trabajo con el siguiente comando:
msgen list -f c:\temp\config.txt
Una vez se complete el flujo de trabajo, puede ver los archivos de salida en la cuenta de Azure Storage, en el contenedor de salida que ha configurado.
Pasos siguientes
En este artículo, ha cargado datos de entrada de ejemplo en Azure Storage y ha enviado un flujo de trabajo al servicio Microsoft Genomics mediante el cliente de Python msgen
. Para más información sobre otros tipos de archivo de entrada que pueden utilizarse con el servicio Microsoft Genomics, consulte las páginas siguientes: Archivos FASTQ emparejados | BAM | Varios archivos FASTQ o BAM.