Udostępnij za pośrednictwem


Szybki start: Uruchamianie przepływu za pośrednictwem usługi Microsoft Genomics

W tym przewodniku Szybki start przekażesz dane wejściowe na konto usługi Azure Blob Storage i uruchomisz przepływ pracy za pośrednictwem usługi Microsoft Genomics przy użyciu klienta python Genomics. Microsoft Genomics to skalowalna, bezpieczna usługa umożliwiająca dodatkową analizę zapewniającą szybkie przetwarzanie genomów, począwszy od pierwotnych operacji odczytywania i tworzenia dopasowanych operacji odczytywania i wywołań odmian.

Wymagania wstępne

Konfiguracja: tworzenie konta usługi Microsoft Genomics w witrynie Azure Portal

Aby utworzyć konto usługi Microsoft Genomics, przejdź do obszaru Tworzenie konta usługi Genomics w witrynie Azure Portal. Jeśli nie masz jeszcze subskrypcji platformy Azure, utwórz ją przed utworzeniem konta usługi Microsoft Genomics.

Usługa Microsoft Genomics w witrynie Azure Portal

Skonfiguruj konto usługi Genomics w sposób pokazany na wcześniejszej ilustracji, używając następujących informacji.

Ustawienie Sugerowana wartość Opis pola
Subskrypcja Nazwa subskrypcji Jest to jednostka rozliczeniowa usług platformy Azure — aby uzyskać szczegółowe informacje o subskrypcji, zobacz Subskrypcje
Grupa zasobów MyResourceGroup Grupy zasobów umożliwiają grupowanie wielu zasobów platformy Azure (konto magazynu, konto usługi Genomics itp.) w jednej grupie, co upraszcza zarządzanie. Aby uzyskać więcej informacji, zobacz Grupy zasobów. Prawidłowe nazwy grup zasobów opisano w artykule Reguły nazewnictwa
Nazwa konta MyGenomicsAccount Wybierz unikatowy identyfikator konta. Aby uzyskać informacje o prawidłowych nazwach, zobacz Reguły nazewnictwa
Lokalizacja Zachodnie stany USA 2 Usługa jest dostępna w regionach: Zachodnie stany USA 2, Europa Zachodnia i Azja Południowo-Wschodnia

Możesz wybrać pozycję Powiadomienia na górnym pasku menu, aby monitorować proces wdrażania.

Notifications

Aby uzyskać więcej informacji na temat usługi Microsoft Genomics, zobacz Co to jest usługa Microsoft Genomics?

Konfiguracja: instalacja klienta Microsoft Genomics Python

Musisz zainstalować zarówno język Python, jak i klienta msgen języka Python usługi Microsoft Genomics w środowisku lokalnym.

Zainstaluj język Python

Klient microsoft Genomics Python jest zgodny z językiem Python 2.7.12 lub nowszym w wersji 2.7.xx. 2.7.14 jest sugerowaną wersją. Pliki do pobrania możesz znaleźć tutaj.

Ważne

Język Python 3.x nie jest zgodny z językiem Python 2.7.xx. msgen to aplikacja w języku Python 2.7. Podczas uruchamiania msgenprogramu upewnij się, że aktywne środowisko języka Python korzysta z wersji 2.7.xx języka Python. Podczas próby użycia msgen z wersją 3.x języka Python mogą wystąpić błędy.

Instalowanie klienta języka Python usługi Microsoft Genomics msgen

Użyj języka Python pip , aby zainstalować klienta msgenusługi Microsoft Genomics. W poniższych instrukcjach założono, że język Python2.x znajduje się już w ścieżce systemowej. Jeśli masz problemy z pip brakiem rozpoznawania instalacji, musisz dodać język Python i podfolder skryptów do ścieżki systemowej.

pip install --upgrade --no-deps msgen
pip install msgen

Jeśli nie chcesz instalować msgen jako binarnego całego systemu i modyfikować pakietów języka Python dla całego systemu, użyj flagi –-user z pip. W przypadku korzystania z instalacji opartej na pakietach lub setup.py instalowane są wszystkie wymagane pakiety.

Testowanie msgen klienta języka Python

Aby przetestować klienta usługi Microsoft Genomics, pobierz plik konfiguracji z konta usługi Genomics. W witrynie Azure Portal przejdź do konta usługi Genomics, wybierając pozycję Wszystkie usługi w lewym górnym rogu, a następnie wyszukując i wybierając pozycję Konta Usługi Genomics.

Znajdowanie usługi Microsoft Genomics w witrynie Azure Portal

Wybierz właśnie utworzone konto Usługi Genomics, przejdź do pozycji Klucze dostępu i pobierz plik konfiguracji.

Pobieranie pliku konfiguracji z usługi Microsoft Genomics

Przetestuj działanie klienta Microsoft Genomics Python przy użyciu następującego polecenia:

msgen list -f "<full path where you saved the config file>"

Tworzenie konta usługi Microsoft Azure Storage

Usługa Microsoft Genomics oczekuje przechowywania danych wejściowych w formie blokowych obiektów blob na koncie magazynu platformy Azure. Usługa również zapisuje pliki wyjściowe jako blokowe obiekty blob w kontenerze określonym przez użytkownika na koncie magazynu platformy Azure. Pliki wejściowe i wyjściowe mogą znajdować się w różnych kontach magazynu. Jeśli masz już dane na koncie magazynu platformy Azure, musisz tylko upewnić się, że znajdują się w tej samej lokalizacji co konto usługi Genomics. W przeciwnym razie opłaty za ruch wychodzący są naliczane podczas uruchamiania usługi Microsoft Genomics. Jeśli nie masz jeszcze konta usługi Azure Storage, musisz utworzyć je i przekazać dane. Więcej informacji o kontach usługi Azure Storage można znaleźć tutaj, w tym o tym, co to jest konto magazynu i jakie usługi oferuje. Aby utworzyć konto usługi Azure Storage, przejdź do obszaru Tworzenie konta magazynu w witrynie Azure Portal.

Strona tworzenia konta magazynu

Skonfiguruj konto magazynu przy użyciu poniższych informacji, jak pokazano na poprzedniej ilustracji. Użyj większości standardowych opcji dla konta magazynu, określając tylko to, że konto to BlobStorage, a nie ogólnego przeznaczenia. Magazyn obiektów blob może być 2–5 razy szybszy w przypadku pobierania i przekazywania. Zalecany jest domyślny model wdrażania usługi Azure Resource Manager.

Ustawienie Sugerowana wartość Opis pola
Subskrypcja Subskrypcja platformy Azure Aby uzyskać szczegółowe informacje o subskrypcji, zobacz Subskrypcje
Grupa zasobów MyResourceGroup Możesz wybrać tę samą grupę zasobów co konto usługi Genomics. Aby uzyskać prawidłowe nazwy grup zasobów, zobacz Reguły nazewnictwa
Nazwa konta magazynu MyStorageAccount Wybierz unikatowy identyfikator konta. Aby uzyskać prawidłowe nazwy, zobacz Reguły nazewnictwa
Lokalizacja Zachodnie stany USA 2 Użyj tej samej lokalizacji co lokalizacja konta usługi Genomics, aby zmniejszyć opłaty za ruch wychodzący i zmniejszyć opóźnienie.
Wydajność Standardowa Wartość domyślna to Standardowa. Aby uzyskać więcej informacji na temat kont magazynu w warstwie Standardowa i Premium, zobacz Wprowadzenie do usługi Microsoft Azure Storage
Rodzaj konta BlobStorage Magazyn obiektów blob może być 2–5 razy szybszy od konta ogólnego przeznaczenia w przypadku pobierania i przekazywania.
Replikacja Magazyn lokalnie nadmiarowy Magazyn lokalnie nadmiarowy replikuje dane w centrum danych w regionie, w którym utworzono konto magazynu. Aby uzyskać więcej informacji, zobacz Replikacja usługi Azure Storage
Warstwa dostępu Duże zainteresowanie Gorąca warstwa dostępu oznacza, że dostęp do obiektów na koncie magazynu będzie uzyskiwany częściej.

Następnie wybierz pozycję Przejrzyj i utwórz , aby utworzyć konto magazynu. Tak jak w przypadku tworzenia konta usługi Genomics, możesz wybrać pozycję Powiadomienia na górnym pasku menu, aby monitorować proces wdrażania.

Przekazywanie danych wejściowych do konta magazynu

Usługa Microsoft Genomics oczekuje sparowanych odczytów końcowych (plików fastq lub bam) jako plików wejściowych. Możesz przekazać własne dane lub eksplorować publicznie dostępne dane przykładowe.

Na koncie magazynu musisz utworzyć jeden kontener obiektów blob na dane wejściowe oraz drugi kontener obiektów blob na dane wyjściowe. Przekaż dane wejściowe do kontenera wejściowych obiektów blob. W tym celu można użyć różnych narzędzi, takich jak Eksplorator usługi Microsoft Azure Storage, BlobPorter lub AzCopy.

Uruchamianie przepływu pracy za pośrednictwem usługi Microsoft Genomics przy użyciu msgen klienta języka Python

Aby uruchomić przepływ pracy za pośrednictwem usługi Microsoft Genomics, zmodyfikuj plik config.txt , aby określić wejściowy i wyjściowy kontener magazynu danych. Otwórz plik config.txt pobrany z konta usługi Genomics. Sekcje, które należy określić, to klucz subskrypcji i sześć elementów u dołu, nazwa konta magazynu, klucz i nazwa kontenera zarówno dla danych wejściowych, jak i wyjściowych. Te informacje można znaleźć, przechodząc w witrynie Azure Portal do obszaru Klucze dostępu dla konta magazynu lub bezpośrednio z Eksplorator usługi Azure Storage.

Konfiguracja usługi Genomics

Jeśli chcesz uruchomić gaTK4, ustaw process_name parametr na gatk4.

Domyślnie usługa Genomics generuje pliki VCF. Jeśli chcesz, aby dane wyjściowe gVCF zamiast danych wyjściowych VCF (równoważne -emitRefConfidence w gaTK 3.x i emit-ref-confidence GATK 4.x), dodaj emit_ref_confidence parametr do config.txt i ustaw go na gvcfwartość , jak pokazano na poprzedniej ilustracji. Aby powrócić do danych wyjściowych programu VCF, usuń go z pliku config.txt lub ustaw emit_ref_confidence parametr na none.

bgzip to narzędzie, które kompresuje plik vcf lub gvcf i tabix tworzy indeks dla skompresowanego pliku. Domyślnie usługa Genomics jest uruchamiana bgzip tabix po danych wyjściowych ".g.vcf", ale domyślnie nie uruchamia tych narzędzi dla danych wyjściowych ".vcf". Po uruchomieniu usługa generuje pliki ".gz" (dane wyjściowe bgzip) i ".tbi" (dane wyjściowe tabix). Argument jest wartością logiczną, która jest domyślnie ustawiona na wartość false dla danych wyjściowych ".vcf" i wartością true domyślnie dla danych wyjściowych ".g.vcf". Aby użyć w wierszu polecenia, określ -bz lub --bgzip-output jako true (uruchom bgzip i tabix) lub false. Aby użyć tego argumentu w pliku config.txt , dodaj bgzip_output: true lub bgzip_output: false do pliku.

Przesyłanie przepływu pracy do usługi Microsoft Genomics przy użyciu msgen klienta języka Python

Użyj klienta Microsoft Genomics Python, aby przesłać przepływ pracy przy użyciu następującego polecenia:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Możesz wyświetlić stan przepływów pracy przy użyciu następującego polecenia:

msgen list -f c:\temp\config.txt 

Po zakończeniu przepływu pracy możesz wyświetlić pliki wyjściowe na koncie usługi Azure Storage w skonfigurowanym kontenerze wyjściowym.

Następne kroki

W tym artykule przekazano przykładowe dane wejściowe do usługi Azure Storage i przesłano przepływ pracy do usługi Microsoft Genomics za pośrednictwem msgen klienta języka Python. Aby dowiedzieć się więcej o innych typach plików wejściowych, których można używać w usłudze Microsoft Genomics, zobacz następujące strony: Sparowane pliki FASTQ | BAM | Wiele plików FASTQ lub BAM.