Use o modelo de aprendizado profundo treinado das Ferramentas Cognitivas da Microsoft com o cluster do Azure HDInsight Spark
Neste artigo, você executa as seguintes etapas.
Execute um script customizado para instalar o Microsoft Cognitive Toolkit em um cluster do Azure HDInsight Spark.
Faça upload de um Jupyter Notebook no cluster do Apache Spark para ver como aplicar um modelo de aprendizado profundo treinado do Microsoft Cognitive Toolkit a arquivos em uma conta do Armazenamento de Blobs do Azure usando a API Spark Python (PySpark)
Pré-requisitos
Um cluster do Apache Spark no HDInsight. Veja Criar um cluster do Apache Spark.
Familiaridade com o uso de anotações do Jupyter com Spark no HDInsight. Para obter mais informações, confira Carregar dados e executar consultas com o Apache Spark no HDInsight.
Como é o fluxo dessa solução?
Essa solução é dividida entre este artigo e um Jupyter Notebook que é carregado como parte deste artigo. Neste artigo, você realiza as seguintes etapas:
- Executar uma ação de script em um cluster HDInsight Spark para instalar pacotes do Python e do Kit de Ferramentas Cognitivas da Microsoft.
- Carregue o Jupyter Notebook que executa a solução no cluster HDInsight Spark.
As seguintes etapas restantes são abordadas no Jupyter Notebook.
- Carregue imagens de exemplo em um Conjunto de Dados Distribuído Resiliente, ou RDD, do Spark.
- Carregar módulos e definir predefinições.
- Baixar o conjunto de dados localmente no cluster do Spark.
- Converter o conjunto de dados em um RDD.
- Classificar as imagens usando um modelo treinado do Cognitive Toolkit.
- Baixar o modelo treinado do Cognitive Toolkit no cluster do Spark.
- Definir funções a serem usadas por nós de trabalho.
- Classificar as imagens em nós de trabalho.
- Avaliar a precisão do modelo.
Instalar o Kit de Ferramentas Cognitivas da Microsoft
Você pode instalar o Kit de Ferramentas Cognitivas da Microsoft em um cluster do Spark usando ação de script. A ação de script usa scripts personalizados para instalar componentes no cluster que não estão disponíveis por padrão. Você pode usar o script personalizado do portal do Azure, usando o SDK .NET do HDInsight ou o Azure PowerShell. Você também pode usar o script para instalar o kit de ferramentas como parte da criação do cluster ou depois que o cluster estiver em funcionamento.
Neste artigo, usamos o portal para instalar o kit de ferramentas após o cluster ter sido criado. Para ver outras maneiras de executar o script personalizado, consulte Personalizar os clusters HDInsight usando a Ação de Script.
Usando o portal do Azure
Para obter instruções sobre como usar o portal do Azure para executar a ação de script, confira Personalizar os clusters HDInsight usando a Ação de Script. Certifique-se de fornecer as entradas a seguir para instalar o Kit de Ferramentas Cognitivas da Microsoft. Use os seguintes valores para a ação de script:
Propriedade | Valor |
---|---|
Tipo de script | - Personalizado |
Nome | Instalar o MCT |
URI do script Bash | https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh |
Tipos de nó: | Cabeçalho, Função de trabalho |
Parâmetros | Nenhum |
Carregar o Jupyter Notebook no cluster do Azure HDInsight Spark
Para usar o Kit de Ferramentas Cognitivas da Microsoft com o cluster do Azure HDInsight Spark, você precisa carregar o Jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb no cluster do Spark para Azure HDInsight. Este caderno também está disponível no GitHub em https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.
Faça download e descompacte https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.
Em um navegador da Web, navegue até
https://CLUSTERNAME.azurehdinsight.net/jupyter
, em queCLUSTERNAME
é o nome do cluster.No Jupyter Notebook, escolha Upload no canto superior direito e, em seguida, navegue até o download e escolha arquivo
CNTK_model_scoring_on_Spark_walkthrough.ipynb
.Escolha Upload novamente.
Após o notebook ser carregado, clique em seu nome e, em seguida, siga as instruções contidas nele sobre como carregar o conjunto de dados e executar o artigo.
Confira também
Cenários
- Apache Spark com BI: execute análise de dados interativa usando o Spark no HDInsight com ferramentas de BI
- Apache Spark com Machine Learning: use o Spark no HDInsight para analisar a temperatura do edifício usando dados de HVAC
- Apache Spark com Machine Learning: use o Spark no HDInsight para prever os resultados da inspeção de alimentos
- Análise de log do site usando o Apache Spark no HDInsight
- Análise de dados do Application Insight telemetria usando o Apache Spark no HDInsight
Criar e executar aplicativos
- Criar um aplicativo autônomo usando Scala
- Execute trabalhos remotamente em um cluster do Apache Spark usando o Apache Livy
Ferramentas e extensões
- Use o Plug-in de Ferramentas do HDInsight para IntelliJ IDEA para criar e enviar aplicativos Spark Scala
- Use o Plugin do HDInsight Tools para o IntelliJ IDEA para depurar os aplicativos do Apache Spark remotamente
- Use os blocos de anotações do Apache Zeppelin com um cluster do Apache Spark no HDInsight
- Kernels disponíveis para o Jupyter Notebook no cluster do Apache Spark para HDInsight
- Usar pacotes externos com Jupyter Notebooks
- Instalar o Jupyter em seu computador e conectar-se a um cluster Spark do HDInsight