Korzystanie z modelu uczenia głębokiego zestawu narzędzi Microsoft Cognitive Toolkit z klastrem Spark w usłudze Azure HDInsight
W tym artykule wykonasz następujące kroki.
Uruchom skrypt niestandardowy, aby zainstalować zestaw narzędzi Microsoft Cognitive Toolkit w klastrze Spark usługi Azure HDInsight.
Przekaż notes Jupyter Notebook do klastra Apache Spark, aby zobaczyć, jak zastosować wytrenowany model uczenia głębokiego zestawu narzędzi Microsoft Cognitive Toolkit do plików na koncie usługi Azure Blob Storage przy użyciu interfejsu API języka Python platformy Spark (PySpark)
Wymagania wstępne
Klaster Apache Spark w usłudze HDInsight. Zobacz Tworzenie klastra Apache Spark.
Znajomość zagadnień dotyczących używania notesów Jupyter za pomocą platformy Spark w usłudze HDInsight. Aby uzyskać więcej informacji, zobacz Ładowanie danych i uruchamianie zapytań za pomocą platformy Apache Spark w usłudze HDInsight.
W jaki sposób przepływ tego rozwiązania?
To rozwiązanie jest podzielone między ten artykuł i notes Jupyter Notebook przekazany w ramach tego artykułu. W tym artykule wykonasz następujące kroki:
- Uruchom akcję skryptu w klastrze HDInsight Spark, aby zainstalować zestaw narzędzi Microsoft Cognitive Toolkit i pakiety języka Python.
- Przekaż notes Jupyter, który uruchamia rozwiązanie do klastra Spark usługi HDInsight.
Poniższe pozostałe kroki zostały omówione w notesie Jupyter Notebook.
- Ładowanie przykładowych obrazów do rozproszonego zestawu danych platformy Spark lub rdD.
- Załaduj moduły i zdefiniuj ustawienia wstępne.
- Pobierz zestaw danych lokalnie w klastrze Spark.
- Przekonwertuj zestaw danych na RDD.
- Ocenianie obrazów przy użyciu wytrenowanego modelu zestawu narzędzi Cognitive Toolkit.
- Pobierz wytrenowany model zestawu narzędzi Cognitive Toolkit do klastra Spark.
- Zdefiniuj funkcje, które mają być używane przez węzły robocze.
- Ocenianie obrazów w węzłach roboczych.
- Ocena dokładności modelu.
Instalowanie zestawu narzędzi Microsoft Cognitive Toolkit
Zestaw narzędzi Microsoft Cognitive Toolkit można zainstalować w klastrze Spark przy użyciu akcji skryptu. Akcja skryptu używa skryptów niestandardowych do instalowania składników w klastrze, które nie są domyślnie dostępne. Możesz użyć skryptu niestandardowego w witrynie Azure Portal przy użyciu zestawu SDK platformy .NET usługi HDInsight lub programu Azure PowerShell. Możesz również użyć skryptu, aby zainstalować zestaw narzędzi w ramach tworzenia klastra lub po uruchomieniu klastra.
W tym artykule użyjemy portalu do zainstalowania zestawu narzędzi po utworzeniu klastra. Aby uzyskać inne sposoby uruchamiania skryptu niestandardowego, zobacz Dostosowywanie klastrów usługi HDInsight przy użyciu akcji skryptu.
Korzystanie z witryny Azure Portal
Aby uzyskać instrukcje dotyczące uruchamiania akcji skryptu za pomocą witryny Azure Portal, zobacz Dostosowywanie klastrów usługi HDInsight przy użyciu akcji skryptu. Upewnij się, że podasz następujące dane wejściowe, aby zainstalować zestaw narzędzi Microsoft Cognitive Toolkit. Użyj następujących wartości dla akcji skryptu:
Właściwości | Wartość |
---|---|
Typ skryptu | -Niestandardowe |
Nazwisko | Instalowanie programu MCT |
Identyfikator URI skryptu powłoki Bash | https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh |
Typy węzłów: | Kierownik, Pracownik |
Parametry | Brak |
Przekazywanie notesu Jupyter Notebook do klastra Platformy Spark w usłudze Azure HDInsight
Aby użyć zestawu narzędzi Microsoft Cognitive Toolkit z klastrem Azure HDInsight Spark, należy załadować notes Jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb do klastra Spark usługi Azure HDInsight. Ten notes jest dostępny w witrynie GitHub pod adresem https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.
Pobierz i rozpakuj https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integrationplik .
W przeglądarce internetowej przejdź do
https://CLUSTERNAME.azurehdinsight.net/jupyter
lokalizacji , gdzieCLUSTERNAME
jest nazwą klastra.W notesie Jupyter Notebook wybierz pozycję Przekaż w prawym górnym rogu, a następnie przejdź do pobierania i wybierz plik
CNTK_model_scoring_on_Spark_walkthrough.ipynb
.Wybierz ponownie pozycję Przekaż .
Po przekazaniu notesu kliknij nazwę notesu, a następnie postępuj zgodnie z instrukcjami w samym notesie dotyczącymi sposobu ładowania zestawu danych i wykonywania artykułu.
Zobacz też
Scenariusze
- Platforma Apache Spark z usługą BI: wykonywanie interaktywnej analizy danych przy użyciu platformy Spark w usłudze HDInsight z narzędziami analizy biznesowej
- Platforma Apache Spark z Edukacja maszyny: używanie platformy Spark w usłudze HDInsight do analizowania temperatury budynku przy użyciu danych HVAC
- Platforma Apache Spark z Edukacja maszynowymi: przewidywanie wyników inspekcji żywności za pomocą platformy Spark w usłudze HDInsight
- Analiza dzienników witryn internetowych przy użyciu platformy Apache Spark w usłudze HDInsight
- Analiza danych telemetrycznych usługi Application Insights przy użyciu platformy Apache Spark w usłudze HDInsight
Tworzenie i uruchamianie aplikacji
- Tworzenie autonomicznych aplikacji przy użyciu języka Scala
- Zdalne uruchamianie zadań w klastrze Apache Spark przy użyciu programu Apache Livy
Narzędzia i rozszerzenia
- Tworzenie i przesyłanie aplikacji Spark Scala przy użyciu dodatku HDInsight Tools Plugin for IntelliJ IDEA
- Zdalne debugowanie aplikacji Platformy Apache Spark za pomocą wtyczki HDInsight Tools dla środowiska IntelliJ IDEA
- Używanie notesów Apache Zeppelin z klastrem Apache Spark w usłudze HDInsight
- Jądra dostępne dla notesu Jupyter w klastrze Apache Spark dla usługi HDInsight
- Używanie pakietów zewnętrznych z notesami Jupyter Notebook
- Instalacja oprogramowania Jupyter na komputerze i nawiązywanie połączenia z klastrem Spark w usłudze HDInsight