Use o modelo de aprendizado profundo treinado das Ferramentas Cognitivas da Microsoft com o cluster do Azure HDInsight Spark

Artigo
01/02/2025

Neste artigo, você executa as seguintes etapas.

Execute um script customizado para instalar o Microsoft Cognitive Toolkit em um cluster do Azure HDInsight Spark.
Faça upload de um Jupyter Notebook no cluster do Apache Spark para ver como aplicar um modelo de aprendizado profundo treinado do Microsoft Cognitive Toolkit a arquivos em uma conta do Armazenamento de Blobs do Azure usando a API Spark Python (PySpark)

Pré-requisitos

Um cluster do Apache Spark no HDInsight. Veja Criar um cluster do Apache Spark.
Familiaridade com o uso de anotações do Jupyter com Spark no HDInsight. Para obter mais informações, confira Carregar dados e executar consultas com o Apache Spark no HDInsight.

Como é o fluxo dessa solução?

Essa solução é dividida entre este artigo e um Jupyter Notebook que é carregado como parte deste artigo. Neste artigo, você realiza as seguintes etapas:

Executar uma ação de script em um cluster HDInsight Spark para instalar pacotes do Python e do Kit de Ferramentas Cognitivas da Microsoft.
Carregue o Jupyter Notebook que executa a solução no cluster HDInsight Spark.

As seguintes etapas restantes são abordadas no Jupyter Notebook.

Carregue imagens de exemplo em um Conjunto de Dados Distribuído Resiliente, ou RDD, do Spark.
- Carregar módulos e definir predefinições.
- Baixar o conjunto de dados localmente no cluster do Spark.
- Converter o conjunto de dados em um RDD.
Classificar as imagens usando um modelo treinado do Cognitive Toolkit.
- Baixar o modelo treinado do Cognitive Toolkit no cluster do Spark.
- Definir funções a serem usadas por nós de trabalho.
- Classificar as imagens em nós de trabalho.
- Avaliar a precisão do modelo.

Instalar o Kit de Ferramentas Cognitivas da Microsoft

Você pode instalar o Kit de Ferramentas Cognitivas da Microsoft em um cluster do Spark usando ação de script. A ação de script usa scripts personalizados para instalar componentes no cluster que não estão disponíveis por padrão. Você pode usar o script personalizado do portal do Azure, usando o SDK .NET do HDInsight ou o Azure PowerShell. Você também pode usar o script para instalar o kit de ferramentas como parte da criação do cluster ou depois que o cluster estiver em funcionamento.

Neste artigo, usamos o portal para instalar o kit de ferramentas após o cluster ter sido criado. Para ver outras maneiras de executar o script personalizado, consulte Personalizar os clusters HDInsight usando a Ação de Script.

Usando o portal do Azure

Para obter instruções sobre como usar o portal do Azure para executar a ação de script, confira Personalizar os clusters HDInsight usando a Ação de Script. Certifique-se de fornecer as entradas a seguir para instalar o Kit de Ferramentas Cognitivas da Microsoft. Use os seguintes valores para a ação de script:

Propriedade	Valor
Tipo de script	- Personalizado
Nome	Instalar o MCT
URI do script Bash	`https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh`
Tipos de nó:	Cabeçalho, Função de trabalho
Parâmetros	Nenhum

Carregar o Jupyter Notebook no cluster do Azure HDInsight Spark

Para usar o Kit de Ferramentas Cognitivas da Microsoft com o cluster do Azure HDInsight Spark, você precisa carregar o Jupyter Notebook CNTK_model_scoring_on_Spark_walkthrough.ipynb no cluster do Spark para Azure HDInsight. Este caderno também está disponível no GitHub em https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

Faça download e descompacte https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.
Em um navegador da Web, navegue até https://CLUSTERNAME.azurehdinsight.net/jupyter, em que CLUSTERNAME é o nome do cluster.
No Jupyter Notebook, escolha Upload no canto superior direito e, em seguida, navegue até o download e escolha arquivo CNTK_model_scoring_on_Spark_walkthrough.ipynb.
Escolha Upload novamente.
Após o notebook ser carregado, clique em seu nome e, em seguida, siga as instruções contidas nele sobre como carregar o conjunto de dados e executar o artigo.

Compartilhar via

Use o modelo de aprendizado profundo treinado das Ferramentas Cognitivas da Microsoft com o cluster do Azure HDInsight Spark

Pré-requisitos

Como é o fluxo dessa solução?

Instalar o Kit de Ferramentas Cognitivas da Microsoft

Usando o portal do Azure

Carregar o Jupyter Notebook no cluster do Azure HDInsight Spark

Confira também

Cenários

Criar e executar aplicativos

Ferramentas e extensões

Gerenciar recursos

Comentários

Recursos adicionais