Condividi tramite


Inviare un flusso di lavoro usando più input dallo stesso esempio

Questo articolo illustra come inviare un flusso di lavoro al servizio Genomica di Microsoft se il file di input è costituito da più file FASTQ o BAM provenienti dallo stesso campione. Se ad esempio è stato eseguito lo stesso esempio in più corsie sul sequencer, è possibile che il sequencer restituisca una coppia di file FASTQ per ogni corsia. Invece di concatenare questi file FASTQ prima dell'allineamento e chiamata delle varianti, è possibile inviare direttamente tutti questi input al client msgen. L'output dal client msgen sarà un set singolo di file, che include un file con estensione bam, bai, vcf.

Occorre tuttavia ricordare che non è possibile combinare file FASTQ e BAM nello stesso invio. Non è possibile inoltre inviare più file FASTQ o BAM da più utenti singoli.

In questo articolo si presuppone che sia già stato installato ed eseguito il client msgen e che si abbia familiarità con l'uso di Archiviazione di Azure. Se è già stato inviato un flusso di lavoro con i dati di campione forniti, è possibile continuare a leggere con questo articolo.

Più file BAM

Caricare i file di input in Archiviazione di Azure

Si supponga che siano disponibili più file BAM come input, reads.bam, additional_reads.bam e yet_more_reads.bam, e che i file siano stati caricati nell'account di archiviazione myaccount in Azure. È necessario che siano disponibili l'URL dell'API e la chiave di accesso. Gli output devono essere disponibili in https://myaccount.blob.core.windows.net/outputs.

Inviare il processo al client msgen

È possibile inviare più file BAM passando tutti i rispettivi nomi all'argomento --input-blob-name-1. Si noti che tutti i file devono provenire dallo stesso esempio, ma l'ordine non è importante. La sezione seguente illustra in modo dettagliato invii di esempio da una riga di comando in Windows, in Unix e tramite un file di configurazione. Le interruzioni di riga vengono aggiunte per maggiore chiarezza:

Per Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Per Unix

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Se si preferisce usare un file di configurazione, deve essere analogo al seguente:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads.bam additional_reads.bam yet_more_reads.bam
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Inviare il file config.txt con questa chiamata: msgen submit -f config.txt

Più file FASTQ abbinati

Caricare i file di input in Archiviazione di Azure

Si supponga che siano disponibili più file FASTQ abbinati come input, reads_1.fq.gz e reads_2.fq.gz, additional_reads_1.fq.gz e additional_reads_2.fq.gz e yet_more_reads_1.fq.gz e yet_more_reads_2.fq.gz. I file sono stati caricati in un account di archiviazione myaccount in Azure e sono disponibili l'URL dell'API e la chiave di accesso. Gli output devono essere disponibili in https://myaccount.blob.core.windows.net/outputs.

Inviare il processo al client msgen

I file FASTQ abbinati non devono solo provenire dallo stesso esempio, ma devono anche essere elaborati insieme. L'ordine dei nomi di file deve essere rispettato quando vengono passati come argomenti a --input-blob-name-1 e --input-blob-name-2.

La sezione seguente illustra in modo dettagliato invii di esempio da una riga di comando in Windows, in Unix e tramite un file di configurazione. Le interruzioni di riga vengono aggiunte per maggiore chiarezza:

Per Windows:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz ^
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

Per Unix:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz \
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

Se si preferisce usare un file di configurazione, deve essere analogo al seguente:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz
input_blob_name_2:                reads_2.fq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

Inviare il file config.txt con questa chiamata: msgen submit -f config.txt

Passaggi successivi

In questo articolo, sono stati caricati più file BAM o file FASTQ abbinati in Archiviazione di Azure ed è stato inviato un flusso di lavoro al servizio Genomica di Microsoft tramite il client Python msgen. Per altre informazioni sull'invio di flussi di lavoro e su altri comandi che possono essere usati con il servizio Genomica di Microsoft, vedere le Domande frequenti.