Sdílet prostřednictvím


Rychlý start: Spuštění pracovního postupu ve službě Microsoft Genomics

V tomto rychlém startu nahrajete vstupní data do účtu služby Azure Blob Storage a spustíte pracovní postup prostřednictvím služby Microsoft Genomics pomocí klienta Python Genomics. Microsoft Genomics je škálovatelná a bezpečná služba pro sekundární analýzu, která dokáže rychle analyzovat genom počínaje od nezpracovaných čtení a vytváří zarovnaná čtení a volání variant.

Požadavky

Příprava: vytvoření účtu Microsoft Genomics na webu Azure Portal

Pokud chcete vytvořit účet Microsoft Genomics, přejděte na webu Azure Portal k vytvoření účtu Genomics. Pokud ještě nemáte předplatné Azure, založte si ho před vytvořením účtu Microsoft Genomics.

Microsoft Genomics na webu Azure Portal

Nastavte v účtu Genomics následující údaje, viz předchozí obrázek.

Nastavení Navrhovaná hodnota Popis pole
Předplatné Název vašeho předplatného Toto je fakturační jednotka pro vaše služby Azure – podrobnosti o vašem předplatném najdete v části Předplatná
Skupina prostředků MyResourceGroup Skupiny prostředků umožňují sdružení několika prostředků Azure (účet úložiště, účet Genomics atd.) do jedné skupiny pro zjednodušení správy. Další informace najdete v tématu Skupiny prostředků. Platné názvy skupin prostředků najdete v tématu Pravidla pojmenování.
Název účtu MyGenomicsAccount Zvolte jedinečný identifikátor účtu. Informace o platných názvech najdete v části Pravidla pojmenování
Umístění Západní USA 2 Služba je dostupná v oblastech USA – západ 2, Západní Evropa a Jihovýchodní Asie

Pokud chcete monitorovat proces nasazení, můžete vybrat oznámení v horním řádku nabídek.

Oznámení

Další informace o microsoft Genomics najdete v tématu Co je Microsoft Genomics?

Příprava: instalace pythonového klienta Microsoft Genomics

V místním prostředí musíte nainstalovat python i klienta msgen Microsoft Genomics Python.

Instalace Pythonu

Klient Microsoft Genomics Python je kompatibilní s Pythonem 2.7.12 nebo novější verzí 2.7.xx. 2.7.14 je navržená verze. Můžete si ji stáhnout tady.

Důležité

Python 3.x není kompatibilní s Pythonem 2.7.xx. msgen je aplikace Python 2.7. Při spuštění msgense ujistěte, že vaše aktivní prostředí Pythonu používá verzi 2.7.xx Pythonu. Při pokusu o použití msgen s verzí Pythonu 3.x se můžou zobrazit chyby.

Instalace klienta Microsoft Genomics Python msgen

Pomocí Pythonu pip nainstalujte klienta msgenMicrosoft Genomics . Následující pokyny předpokládají, že Python2.x už je ve vaší systémové cestě. Pokud máte problémy s pip nerozpoznanou instalací, musíte do systémové cesty přidat Python a podsložku skriptů.

pip install --upgrade --no-deps msgen
pip install msgen

Pokud nechcete instalovat msgen jako binární soubor pro celý systém a upravovat systémové balíčky Pythonu, použijte příznak –-user s pip. Pokud používáte instalaci nebo setup.py založené na balíčku, nainstalují se všechny potřebné balíčky.

Testování msgen klienta Pythonu

Pokud chcete otestovat klienta Microsoft Genomics, stáhněte si konfigurační soubor z účtu Genomics. Na webu Azure Portal přejděte na svůj účet Genomics tak , že v levém horním rohu vyberete Všechny služby a pak vyhledáte a vyberete účty Genomics.

Vyhledání Microsoft Genomics na webu Azure Portal

Vyberte účet Genomics, který jste právě vytvořili, přejděte na Přístupové klíče a stáhněte si konfigurační soubor.

Stažení konfiguračního souboru z Microsoft Genomics

Vyzkoušejte správnou funkci pythonového klienta Microsoft Genomics pomocí následujícího příkazu

msgen list -f "<full path where you saved the config file>"

Vytvoření účtu Microsoft Azure Storage

Služba Microsoft Genomics očekává vstupy uložené jako objekty blob bloku v účtu úložiště Azure. Také výstupní soubory zapisuje jako objekty blob bloku do uživatelem zadaného kontejneru v účtu úložiště Azure. Vstupy a výstupy můžou patřit do různých účtů úložiště. Pokud již máte data v účtu úložiště Azure, stačí se ujistit, že je ve stejném umístění jako účet Genomics. Jinak se při spuštění služby Microsoft Genomics účtují poplatky za výchozí přenos dat. Pokud ještě nemáte účet úložiště Azure, musíte si ho vytvořit a nahrát data. Další informace o účtech úložiště Azure najdete tady, včetně toho, co účet úložiště je a jaké služby poskytuje. Pokud chcete vytvořit účet úložiště Azure, přejděte na webu Azure Portal k vytvoření účtu úložiště.

Stránka pro vytvoření účtu úložiště

Nakonfigurujte účet úložiště s následujícími informacemi, jak je znázorněno na předchozím obrázku. Použijte většinu standardních možností pro účet úložiště a určete pouze, že účet je BlobStorage, nikoli pro obecné účely. Úložiště objektů blob nabízí 2–5× rychlejší stahování a nahrávání. Doporučuje se výchozí model nasazení Azure Resource Manager.

Nastavení Navrhovaná hodnota Popis pole
Předplatné Vaše předplatné Azure. Podrobnosti o vašich předplatných najdete v tématu Předplatná.
Skupina prostředků MyResourceGroup Můžete vybrat stejnou skupinu prostředků jako účet Genomics. Platné názvy skupin prostředků najdete v tématu Pravidla pojmenování.
Název účtu úložiště MyStorageAccount Zvolte jedinečný identifikátor účtu. Platné názvy najdete v tématu Pravidla pojmenování.
Umístění Západní USA 2 Použijte stejné umístění jako umístění účtu Genomics, abyste snížili poplatky za výchozí přenos dat a snížili latenci.
Výkon Standard Výchozí nastavení je Standard. Další podrobnosti o účtech služby Standard a Premium Storage najdete v tématu Úvod do služby Microsoft Azure Storage.
Druh účtu Blob Storage Úložiště objektů blob nabízí 2–5× rychlejší stahování a nahrávání než úložiště pro obecné účely.
Replikace Místně redundantní úložiště Místně redundantní úložiště replikuje data třikrát v rámci oblasti, ve které jste vytvořili účet úložiště. Další informace najdete v tématu Replikace Azure Storage.
Úroveň přístupu Značný zájem Horká úroveň přístupu znamená, že k objektům v účtu úložiště budete přistupovat častěji.

Pak vyberte Zkontrolovat a vytvořit účet úložiště. Stejně jako při vytváření účtu Genomics můžete vybrat oznámení v horním řádku nabídek a monitorovat proces nasazení.

Nahrání vstupních dat do účtu úložiště

Služba Microsoft Genomics očekává spárované koncové čtení (soubory fastq nebo bam) jako vstupní soubory. Můžete nahrát svoje vlastní data, nebo použít veřejně dostupná ukázková data, která jsme pro vás připravili.

V rámci účtu úložiště budete potřebovat jeden kontejner objektů blob pro vstupní data a druhý kontejner objektů blob pro výstupní data. Nahrajte vstupní data do vstupního kontejneru objektů blob. K tomu je možné použít různé nástroje, včetně Průzkumník služby Microsoft Azure Storage, BlobPorteru nebo AzCopy.

Spuštění pracovního postupu prostřednictvím služby Microsoft Genomics pomocí klienta Pythonu msgen

Pokud chcete spustit pracovní postup prostřednictvím služby Microsoft Genomics, upravte soubor config.txt a určete vstupní a výstupní kontejner úložiště pro vaše data. Otevřete soubor config.txt, který jste stáhli ze svého účtu Genomics. Oddíly, které potřebujete zadat, jsou klíč předplatného a šest položek v dolní části, název účtu úložiště, klíč a název kontejneru pro vstup i výstup. Tyto informace najdete tak, že na webu Azure Portal přejdete na přístupové klíče pro váš účet úložiště nebo přímo z Průzkumník služby Azure Storage.

Konfigurace Genomics

Pokud chcete spustit GATK4, nastavte process_name parametr na gatk4hodnotu .

Ve výchozím nastavení služba Genomics vypíše soubory VCF. Pokud chcete, aby výstup gVCF místo výstupu VCF (ekvivalent -emitRefConfidence v GATK 3.x a emit-ref-confidence GATK 4.x), přidejte emit_ref_confidence do config.txt parametr a nastavte ho na gvcf, jak je znázorněno na předchozím obrázku. Pokud chcete změnit zpět na výstup VCF, odeberte ho ze souboru config.txt nebo nastavte emit_ref_confidence parametr na none.

bgzip je nástroj, který komprimuje soubor vcf nebo gvcf a tabix vytvoří index komprimovaného souboru. Ve výchozím nastavení běží služba bgzip Genomics následovaná výstupem tabix ".g.vcf", ale nespouští tyto nástroje ve výchozím nastavení pro výstup ".vcf". Při spuštění služba vytvoří soubory ".gz" (výstup bgzip) a ".tbi" (výstup tabix). Argument je logická hodnota, která je ve výchozím nastavení nastavená na false pro výstup ".vcf" a ve výchozím nastavení má hodnotu true pro výstup ".g.vcf". Chcete-li použít na příkazovém řádku, zadejte -bz nebo --bgzip-output jako true (spusťte bgzip a tabix) nebo false. Chcete-li tento argument použít v souboru config.txt , přidejte bgzip_output: true nebo bgzip_output: false do souboru.

Odeslání pracovního postupu do služby Microsoft Genomics pomocí klienta Pythonu msgen

Pomocí pythonového klienta Microsoft Genomics odešlete svůj pracovní postup pomocí následujícího příkazu:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Stav pracovního postupu můžete zkontrolovat následujícím příkazem:

msgen list -f c:\temp\config.txt 

Po dokončení pracovního postupu můžete zobrazit výstupní soubory v účtu úložiště Azure ve výstupním kontejneru, který jste nakonfigurovali.

Další kroky

V tomto článku jste nahráli ukázková vstupní data do úložiště Azure a odeslali jste pracovní postup do služby Microsoft Genomics prostřednictvím klienta Pythonu msgen . Další informace o ostatních typech vstupních souborů, které můžete se službou Microsoft Genomics použít, najdete na následujících stránkách: Párované soubory FASTQ | BAM | Více souborů FASTQ nebo BAM.