Szybki start: Uruchamianie przepływu za pośrednictwem usługi Microsoft Genomics
W tym przewodniku Szybki start przekażesz dane wejściowe na konto usługi Azure Blob Storage i uruchomisz przepływ pracy za pośrednictwem usługi Microsoft Genomics przy użyciu klienta python Genomics. Microsoft Genomics to skalowalna, bezpieczna usługa umożliwiająca dodatkową analizę zapewniającą szybkie przetwarzanie genomów, począwszy od pierwotnych operacji odczytywania i tworzenia dopasowanych operacji odczytywania i wywołań odmian.
Wymagania wstępne
- Konto platformy Azure z aktywną subskrypcją. Utwórz konto bezpłatnie.
- Język Python w wersji 2.7.12 lub nowszej z zainstalowanym
pip
programem ipython
w ścieżce systemowej. Klient usługi Microsoft Genomics nie jest zgodny z językiem Python 3.
Konfiguracja: tworzenie konta usługi Microsoft Genomics w witrynie Azure Portal
Aby utworzyć konto usługi Microsoft Genomics, przejdź do obszaru Tworzenie konta usługi Genomics w witrynie Azure Portal. Jeśli nie masz jeszcze subskrypcji platformy Azure, utwórz ją przed utworzeniem konta usługi Microsoft Genomics.
Skonfiguruj konto usługi Genomics w sposób pokazany na wcześniejszej ilustracji, używając następujących informacji.
Ustawienie | Sugerowana wartość | Opis pola |
---|---|---|
Subskrypcja | Nazwa subskrypcji | Jest to jednostka rozliczeniowa usług platformy Azure — aby uzyskać szczegółowe informacje o subskrypcji, zobacz Subskrypcje |
Grupa zasobów | MyResourceGroup | Grupy zasobów umożliwiają grupowanie wielu zasobów platformy Azure (konto magazynu, konto usługi Genomics itp.) w jednej grupie, co upraszcza zarządzanie. Aby uzyskać więcej informacji, zobacz Grupy zasobów. Prawidłowe nazwy grup zasobów opisano w artykule Reguły nazewnictwa |
Nazwa konta | MyGenomicsAccount | Wybierz unikatowy identyfikator konta. Aby uzyskać informacje o prawidłowych nazwach, zobacz Reguły nazewnictwa |
Lokalizacja | Zachodnie stany USA 2 | Usługa jest dostępna w regionach: Zachodnie stany USA 2, Europa Zachodnia i Azja Południowo-Wschodnia |
Możesz wybrać pozycję Powiadomienia na górnym pasku menu, aby monitorować proces wdrażania.
Aby uzyskać więcej informacji na temat usługi Microsoft Genomics, zobacz Co to jest usługa Microsoft Genomics?
Konfiguracja: instalacja klienta Microsoft Genomics Python
Musisz zainstalować zarówno język Python, jak i klienta msgen
języka Python usługi Microsoft Genomics w środowisku lokalnym.
Zainstaluj język Python
Klient microsoft Genomics Python jest zgodny z językiem Python 2.7.12 lub nowszym w wersji 2.7.xx. 2.7.14 jest sugerowaną wersją. Pliki do pobrania możesz znaleźć tutaj.
Ważne
Język Python 3.x nie jest zgodny z językiem Python 2.7.xx. msgen
to aplikacja w języku Python 2.7. Podczas uruchamiania msgen
programu upewnij się, że aktywne środowisko języka Python korzysta z wersji 2.7.xx języka Python. Podczas próby użycia msgen
z wersją 3.x języka Python mogą wystąpić błędy.
Instalowanie klienta języka Python usługi Microsoft Genomics msgen
Użyj języka Python pip
, aby zainstalować klienta msgen
usługi Microsoft Genomics. W poniższych instrukcjach założono, że język Python2.x znajduje się już w ścieżce systemowej. Jeśli masz problemy z pip
brakiem rozpoznawania instalacji, musisz dodać język Python i podfolder skryptów do ścieżki systemowej.
pip install --upgrade --no-deps msgen
pip install msgen
Jeśli nie chcesz instalować msgen
jako binarnego całego systemu i modyfikować pakietów języka Python dla całego systemu, użyj flagi –-user
z pip
.
W przypadku korzystania z instalacji opartej na pakietach lub setup.py instalowane są wszystkie wymagane pakiety.
Testowanie msgen
klienta języka Python
Aby przetestować klienta usługi Microsoft Genomics, pobierz plik konfiguracji z konta usługi Genomics. W witrynie Azure Portal przejdź do konta usługi Genomics, wybierając pozycję Wszystkie usługi w lewym górnym rogu, a następnie wyszukując i wybierając pozycję Konta Usługi Genomics.
Wybierz właśnie utworzone konto Usługi Genomics, przejdź do pozycji Klucze dostępu i pobierz plik konfiguracji.
Przetestuj działanie klienta Microsoft Genomics Python przy użyciu następującego polecenia:
msgen list -f "<full path where you saved the config file>"
Tworzenie konta usługi Microsoft Azure Storage
Usługa Microsoft Genomics oczekuje przechowywania danych wejściowych w formie blokowych obiektów blob na koncie magazynu platformy Azure. Usługa również zapisuje pliki wyjściowe jako blokowe obiekty blob w kontenerze określonym przez użytkownika na koncie magazynu platformy Azure. Pliki wejściowe i wyjściowe mogą znajdować się w różnych kontach magazynu. Jeśli masz już dane na koncie magazynu platformy Azure, musisz tylko upewnić się, że znajdują się w tej samej lokalizacji co konto usługi Genomics. W przeciwnym razie opłaty za ruch wychodzący są naliczane podczas uruchamiania usługi Microsoft Genomics. Jeśli nie masz jeszcze konta usługi Azure Storage, musisz utworzyć je i przekazać dane. Więcej informacji o kontach usługi Azure Storage można znaleźć tutaj, w tym o tym, co to jest konto magazynu i jakie usługi oferuje. Aby utworzyć konto usługi Azure Storage, przejdź do obszaru Tworzenie konta magazynu w witrynie Azure Portal.
Skonfiguruj konto magazynu przy użyciu poniższych informacji, jak pokazano na poprzedniej ilustracji. Użyj większości standardowych opcji dla konta magazynu, określając tylko to, że konto to BlobStorage, a nie ogólnego przeznaczenia. Magazyn obiektów blob może być 2–5 razy szybszy w przypadku pobierania i przekazywania. Zalecany jest domyślny model wdrażania usługi Azure Resource Manager.
Ustawienie | Sugerowana wartość | Opis pola |
---|---|---|
Subskrypcja | Subskrypcja platformy Azure | Aby uzyskać szczegółowe informacje o subskrypcji, zobacz Subskrypcje |
Grupa zasobów | MyResourceGroup | Możesz wybrać tę samą grupę zasobów co konto usługi Genomics. Aby uzyskać prawidłowe nazwy grup zasobów, zobacz Reguły nazewnictwa |
Nazwa konta magazynu | MyStorageAccount | Wybierz unikatowy identyfikator konta. Aby uzyskać prawidłowe nazwy, zobacz Reguły nazewnictwa |
Lokalizacja | Zachodnie stany USA 2 | Użyj tej samej lokalizacji co lokalizacja konta usługi Genomics, aby zmniejszyć opłaty za ruch wychodzący i zmniejszyć opóźnienie. |
Wydajność | Standardowa | Wartość domyślna to Standardowa. Aby uzyskać więcej informacji na temat kont magazynu w warstwie Standardowa i Premium, zobacz Wprowadzenie do usługi Microsoft Azure Storage |
Rodzaj konta | BlobStorage | Magazyn obiektów blob może być 2–5 razy szybszy od konta ogólnego przeznaczenia w przypadku pobierania i przekazywania. |
Replikacja | Magazyn lokalnie nadmiarowy | Magazyn lokalnie nadmiarowy replikuje dane w centrum danych w regionie, w którym utworzono konto magazynu. Aby uzyskać więcej informacji, zobacz Replikacja usługi Azure Storage |
Warstwa dostępu | Duże zainteresowanie | Gorąca warstwa dostępu oznacza, że dostęp do obiektów na koncie magazynu będzie uzyskiwany częściej. |
Następnie wybierz pozycję Przejrzyj i utwórz , aby utworzyć konto magazynu. Tak jak w przypadku tworzenia konta usługi Genomics, możesz wybrać pozycję Powiadomienia na górnym pasku menu, aby monitorować proces wdrażania.
Przekazywanie danych wejściowych do konta magazynu
Usługa Microsoft Genomics oczekuje sparowanych odczytów końcowych (plików fastq lub bam) jako plików wejściowych. Możesz przekazać własne dane lub eksplorować publicznie dostępne dane przykładowe.
Na koncie magazynu musisz utworzyć jeden kontener obiektów blob na dane wejściowe oraz drugi kontener obiektów blob na dane wyjściowe. Przekaż dane wejściowe do kontenera wejściowych obiektów blob. W tym celu można użyć różnych narzędzi, takich jak Eksplorator usługi Microsoft Azure Storage, BlobPorter lub AzCopy.
Uruchamianie przepływu pracy za pośrednictwem usługi Microsoft Genomics przy użyciu msgen
klienta języka Python
Aby uruchomić przepływ pracy za pośrednictwem usługi Microsoft Genomics, zmodyfikuj plik config.txt , aby określić wejściowy i wyjściowy kontener magazynu danych. Otwórz plik config.txt pobrany z konta usługi Genomics. Sekcje, które należy określić, to klucz subskrypcji i sześć elementów u dołu, nazwa konta magazynu, klucz i nazwa kontenera zarówno dla danych wejściowych, jak i wyjściowych. Te informacje można znaleźć, przechodząc w witrynie Azure Portal do obszaru Klucze dostępu dla konta magazynu lub bezpośrednio z Eksplorator usługi Azure Storage.
Jeśli chcesz uruchomić gaTK4, ustaw process_name
parametr na gatk4
.
Domyślnie usługa Genomics generuje pliki VCF. Jeśli chcesz, aby dane wyjściowe gVCF zamiast danych wyjściowych VCF (równoważne -emitRefConfidence
w gaTK 3.x i emit-ref-confidence
GATK 4.x), dodaj emit_ref_confidence
parametr do config.txt i ustaw go na gvcf
wartość , jak pokazano na poprzedniej ilustracji. Aby powrócić do danych wyjściowych programu VCF, usuń go z pliku config.txt lub ustaw emit_ref_confidence
parametr na none
.
bgzip
to narzędzie, które kompresuje plik vcf lub gvcf i tabix
tworzy indeks dla skompresowanego pliku. Domyślnie usługa Genomics jest uruchamiana bgzip
tabix
po danych wyjściowych ".g.vcf", ale domyślnie nie uruchamia tych narzędzi dla danych wyjściowych ".vcf". Po uruchomieniu usługa generuje pliki ".gz" (dane wyjściowe bgzip) i ".tbi" (dane wyjściowe tabix). Argument jest wartością logiczną, która jest domyślnie ustawiona na wartość false dla danych wyjściowych ".vcf" i wartością true domyślnie dla danych wyjściowych ".g.vcf". Aby użyć w wierszu polecenia, określ -bz
lub --bgzip-output
jako true
(uruchom bgzip i tabix) lub false
. Aby użyć tego argumentu w pliku config.txt , dodaj bgzip_output: true
lub bgzip_output: false
do pliku.
Przesyłanie przepływu pracy do usługi Microsoft Genomics przy użyciu msgen
klienta języka Python
Użyj klienta Microsoft Genomics Python, aby przesłać przepływ pracy przy użyciu następującego polecenia:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
Możesz wyświetlić stan przepływów pracy przy użyciu następującego polecenia:
msgen list -f c:\temp\config.txt
Po zakończeniu przepływu pracy możesz wyświetlić pliki wyjściowe na koncie usługi Azure Storage w skonfigurowanym kontenerze wyjściowym.
Następne kroki
W tym artykule przekazano przykładowe dane wejściowe do usługi Azure Storage i przesłano przepływ pracy do usługi Microsoft Genomics za pośrednictwem msgen
klienta języka Python. Aby dowiedzieć się więcej o innych typach plików wejściowych, których można używać w usłudze Microsoft Genomics, zobacz następujące strony: Sparowane pliki FASTQ | BAM | Wiele plików FASTQ lub BAM.