Rychlý start: Spuštění pracovního postupu ve službě Microsoft Genomics
V tomto rychlém startu nahrajete vstupní data do účtu služby Azure Blob Storage a spustíte pracovní postup prostřednictvím služby Microsoft Genomics pomocí klienta Python Genomics. Microsoft Genomics je škálovatelná a bezpečná služba pro sekundární analýzu, která dokáže rychle analyzovat genom počínaje od nezpracovaných čtení a vytváří zarovnaná čtení a volání variant.
Požadavky
- Účet Azure s aktivním předplatným. Vytvoření účtu zdarma
- Python 2.7.12+ s nainstalovanou
pip
apython
v systémové cestě. Klient Microsoft Genomics není kompatibilní s Pythonem 3.
Příprava: vytvoření účtu Microsoft Genomics na webu Azure Portal
Pokud chcete vytvořit účet Microsoft Genomics, přejděte na webu Azure Portal k vytvoření účtu Genomics. Pokud ještě nemáte předplatné Azure, založte si ho před vytvořením účtu Microsoft Genomics.
Nastavte v účtu Genomics následující údaje, viz předchozí obrázek.
Nastavení | Navrhovaná hodnota | Popis pole |
---|---|---|
Předplatné | Název vašeho předplatného | Toto je fakturační jednotka pro vaše služby Azure – podrobnosti o vašem předplatném najdete v části Předplatná |
Skupina prostředků | MyResourceGroup | Skupiny prostředků umožňují sdružení několika prostředků Azure (účet úložiště, účet Genomics atd.) do jedné skupiny pro zjednodušení správy. Další informace najdete v tématu Skupiny prostředků. Platné názvy skupin prostředků najdete v tématu Pravidla pojmenování. |
Název účtu | MyGenomicsAccount | Zvolte jedinečný identifikátor účtu. Informace o platných názvech najdete v části Pravidla pojmenování |
Umístění | Západní USA 2 | Služba je dostupná v oblastech USA – západ 2, Západní Evropa a Jihovýchodní Asie |
Pokud chcete monitorovat proces nasazení, můžete vybrat oznámení v horním řádku nabídek.
Další informace o microsoft Genomics najdete v tématu Co je Microsoft Genomics?
Příprava: instalace pythonového klienta Microsoft Genomics
V místním prostředí musíte nainstalovat python i klienta msgen
Microsoft Genomics Python.
Instalace Pythonu
Klient Microsoft Genomics Python je kompatibilní s Pythonem 2.7.12 nebo novější verzí 2.7.xx. 2.7.14 je navržená verze. Můžete si ji stáhnout tady.
Důležité
Python 3.x není kompatibilní s Pythonem 2.7.xx. msgen
je aplikace Python 2.7. Při spuštění msgen
se ujistěte, že vaše aktivní prostředí Pythonu používá verzi 2.7.xx Pythonu. Při pokusu o použití msgen
s verzí Pythonu 3.x se můžou zobrazit chyby.
Instalace klienta Microsoft Genomics Python msgen
Pomocí Pythonu pip
nainstalujte klienta msgen
Microsoft Genomics . Následující pokyny předpokládají, že Python2.x už je ve vaší systémové cestě. Pokud máte problémy s pip
nerozpoznanou instalací, musíte do systémové cesty přidat Python a podsložku skriptů.
pip install --upgrade --no-deps msgen
pip install msgen
Pokud nechcete instalovat msgen
jako binární soubor pro celý systém a upravovat systémové balíčky Pythonu, použijte příznak –-user
s pip
.
Pokud používáte instalaci nebo setup.py založené na balíčku, nainstalují se všechny potřebné balíčky.
Testování msgen
klienta Pythonu
Pokud chcete otestovat klienta Microsoft Genomics, stáhněte si konfigurační soubor z účtu Genomics. Na webu Azure Portal přejděte na svůj účet Genomics tak , že v levém horním rohu vyberete Všechny služby a pak vyhledáte a vyberete účty Genomics.
Vyberte účet Genomics, který jste právě vytvořili, přejděte na Přístupové klíče a stáhněte si konfigurační soubor.
Vyzkoušejte správnou funkci pythonového klienta Microsoft Genomics pomocí následujícího příkazu
msgen list -f "<full path where you saved the config file>"
Vytvoření účtu Microsoft Azure Storage
Služba Microsoft Genomics očekává vstupy uložené jako objekty blob bloku v účtu úložiště Azure. Také výstupní soubory zapisuje jako objekty blob bloku do uživatelem zadaného kontejneru v účtu úložiště Azure. Vstupy a výstupy můžou patřit do různých účtů úložiště. Pokud již máte data v účtu úložiště Azure, stačí se ujistit, že je ve stejném umístění jako účet Genomics. Jinak se při spuštění služby Microsoft Genomics účtují poplatky za výchozí přenos dat. Pokud ještě nemáte účet úložiště Azure, musíte si ho vytvořit a nahrát data. Další informace o účtech úložiště Azure najdete tady, včetně toho, co účet úložiště je a jaké služby poskytuje. Pokud chcete vytvořit účet úložiště Azure, přejděte na webu Azure Portal k vytvoření účtu úložiště.
Nakonfigurujte účet úložiště s následujícími informacemi, jak je znázorněno na předchozím obrázku. Použijte většinu standardních možností pro účet úložiště a určete pouze, že účet je BlobStorage, nikoli pro obecné účely. Úložiště objektů blob nabízí 2–5× rychlejší stahování a nahrávání. Doporučuje se výchozí model nasazení Azure Resource Manager.
Nastavení | Navrhovaná hodnota | Popis pole |
---|---|---|
Předplatné | Vaše předplatné Azure. | Podrobnosti o vašich předplatných najdete v tématu Předplatná. |
Skupina prostředků | MyResourceGroup | Můžete vybrat stejnou skupinu prostředků jako účet Genomics. Platné názvy skupin prostředků najdete v tématu Pravidla pojmenování. |
Název účtu úložiště | MyStorageAccount | Zvolte jedinečný identifikátor účtu. Platné názvy najdete v tématu Pravidla pojmenování. |
Umístění | Západní USA 2 | Použijte stejné umístění jako umístění účtu Genomics, abyste snížili poplatky za výchozí přenos dat a snížili latenci. |
Výkon | Standard | Výchozí nastavení je Standard. Další podrobnosti o účtech služby Standard a Premium Storage najdete v tématu Úvod do služby Microsoft Azure Storage. |
Druh účtu | Blob Storage | Úložiště objektů blob nabízí 2–5× rychlejší stahování a nahrávání než úložiště pro obecné účely. |
Replikace | Místně redundantní úložiště | Místně redundantní úložiště replikuje data třikrát v rámci oblasti, ve které jste vytvořili účet úložiště. Další informace najdete v tématu Replikace Azure Storage. |
Úroveň přístupu | Značný zájem | Horká úroveň přístupu znamená, že k objektům v účtu úložiště budete přistupovat častěji. |
Pak vyberte Zkontrolovat a vytvořit účet úložiště. Stejně jako při vytváření účtu Genomics můžete vybrat oznámení v horním řádku nabídek a monitorovat proces nasazení.
Nahrání vstupních dat do účtu úložiště
Služba Microsoft Genomics očekává spárované koncové čtení (soubory fastq nebo bam) jako vstupní soubory. Můžete nahrát svoje vlastní data, nebo použít veřejně dostupná ukázková data, která jsme pro vás připravili.
V rámci účtu úložiště budete potřebovat jeden kontejner objektů blob pro vstupní data a druhý kontejner objektů blob pro výstupní data. Nahrajte vstupní data do vstupního kontejneru objektů blob. K tomu je možné použít různé nástroje, včetně Průzkumník služby Microsoft Azure Storage, BlobPorteru nebo AzCopy.
Spuštění pracovního postupu prostřednictvím služby Microsoft Genomics pomocí klienta Pythonu msgen
Pokud chcete spustit pracovní postup prostřednictvím služby Microsoft Genomics, upravte soubor config.txt a určete vstupní a výstupní kontejner úložiště pro vaše data. Otevřete soubor config.txt, který jste stáhli ze svého účtu Genomics. Oddíly, které potřebujete zadat, jsou klíč předplatného a šest položek v dolní části, název účtu úložiště, klíč a název kontejneru pro vstup i výstup. Tyto informace najdete tak, že na webu Azure Portal přejdete na přístupové klíče pro váš účet úložiště nebo přímo z Průzkumník služby Azure Storage.
Pokud chcete spustit GATK4, nastavte process_name
parametr na gatk4
hodnotu .
Ve výchozím nastavení služba Genomics vypíše soubory VCF. Pokud chcete, aby výstup gVCF místo výstupu VCF (ekvivalent -emitRefConfidence
v GATK 3.x a emit-ref-confidence
GATK 4.x), přidejte emit_ref_confidence
do config.txt parametr a nastavte ho na gvcf
, jak je znázorněno na předchozím obrázku. Pokud chcete změnit zpět na výstup VCF, odeberte ho ze souboru config.txt nebo nastavte emit_ref_confidence
parametr na none
.
bgzip
je nástroj, který komprimuje soubor vcf nebo gvcf a tabix
vytvoří index komprimovaného souboru. Ve výchozím nastavení běží služba bgzip
Genomics následovaná výstupem tabix
".g.vcf", ale nespouští tyto nástroje ve výchozím nastavení pro výstup ".vcf". Při spuštění služba vytvoří soubory ".gz" (výstup bgzip) a ".tbi" (výstup tabix). Argument je logická hodnota, která je ve výchozím nastavení nastavená na false pro výstup ".vcf" a ve výchozím nastavení má hodnotu true pro výstup ".g.vcf". Chcete-li použít na příkazovém řádku, zadejte -bz
nebo --bgzip-output
jako true
(spusťte bgzip a tabix) nebo false
. Chcete-li tento argument použít v souboru config.txt , přidejte bgzip_output: true
nebo bgzip_output: false
do souboru.
Odeslání pracovního postupu do služby Microsoft Genomics pomocí klienta Pythonu msgen
Pomocí pythonového klienta Microsoft Genomics odešlete svůj pracovní postup pomocí následujícího příkazu:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
Stav pracovního postupu můžete zkontrolovat následujícím příkazem:
msgen list -f c:\temp\config.txt
Po dokončení pracovního postupu můžete zobrazit výstupní soubory v účtu úložiště Azure ve výstupním kontejneru, který jste nakonfigurovali.
Další kroky
V tomto článku jste nahráli ukázková vstupní data do úložiště Azure a odeslali jste pracovní postup do služby Microsoft Genomics prostřednictvím klienta Pythonu msgen
. Další informace o ostatních typech vstupních souborů, které můžete se službou Microsoft Genomics použít, najdete na následujících stránkách: Párované soubory FASTQ | BAM | Více souborů FASTQ nebo BAM.