Compartilhar via


Monitorar aplicativos Apache Spark com o Azure Log Analytics

Neste tutorial, você vai aprender a habilitar o conector do Synapse Studio que está dentro do Log Analytics. Em seguida, será possível coletar métricas e logs do aplicativo Apache Spark, depois enviá-los para o workspace do Log Analytics. Por fim, será possível usar uma pasta de trabalho do Azure Monitor para visualizar as métricas e os logs.

Configurar informações do workspace

Siga as etapas abaixo para configurar as informações necessárias no Synapse Studio.

Etapa 1: criar um workspace do Log Analytics

Confira um dos seguintes recursos para criar esse workspace:

Etapa 2: Coletar informações de configuração

Use uma das opções abaixo para preparar a configuração.

Opção 1: configurar usando a ID e a chave do workspace do Log Analytics

Reúna os seguintes valores para a configuração do Spark:

  • <LOG_ANALYTICS_WORKSPACE_ID>: ID do workspace do Log Analytics.
  • <LOG_ANALYTICS_WORKSPACE_KEY>: chave do Log Analytics. Para localizá-los, abra o portal do Azure e acesse Workspace do Azure Log Analytics>Agentes>Chave primária.
spark.synapse.logAnalytics.enabled true
spark.synapse.logAnalytics.workspaceId <LOG_ANALYTICS_WORKSPACE_ID>
spark.synapse.logAnalytics.secret <LOG_ANALYTICS_WORKSPACE_KEY>

Opção 2: configurar usando o Azure Key Vault

Observação

Você precisa conceder permissão de leitura de segredo para os usuários que enviarão aplicativos Apache Spark. Para obter mais informações, confira como Fornecer acesso a chaves, certificados e segredos do Key Vault usando um controle de acesso baseado em função do Azure. Ao habilitar esse recurso em um pipeline do Synapse, você precisa usar a Opção 3. Isso é necessário para obter o segredo do Azure Key Vault com a identidade gerenciada do workspace.

Execute as seguintes etapas para configurar o Azure Key Vault a fim de armazenar a chave do workspace:

  1. Crie e acesse o seu cofre de chaves no portal do Azure.

  2. Na página de configurações do cofre de chaves, selecione Segredos.

  3. Selecione Gerar/Importar.

  4. Na tela Criar um segredo, selecione os seguintes valores:

    • Nome: insira um nome para o segredo. Insira SparkLogAnalyticsSecret como o nome padrão.
    • Valor: insira <LOG_ANALYTICS_WORKSPACE_KEY> para o segredo.
    • Deixe os outros valores com seus padrões. Em seguida, selecione Criar.
  5. Reúna os seguintes valores para a configuração do Spark:

    • <LOG_ANALYTICS_WORKSPACE_ID>: a ID do workspace do Log Analytics.
    • <AZURE_KEY_VAULT_NAME>: o nome do cofre de chaves configurado.
    • <AZURE_KEY_VAULT_SECRET_KEY_NAME> (opcional): o nome secreto da chave do workspace no cofre de chaves. O padrão é SparkLogAnalyticsSecret.
spark.synapse.logAnalytics.enabled true
spark.synapse.logAnalytics.workspaceId <LOG_ANALYTICS_WORKSPACE_ID>
spark.synapse.logAnalytics.keyVault.name <AZURE_KEY_VAULT_NAME>
spark.synapse.logAnalytics.keyVault.key.secret <AZURE_KEY_VAULT_SECRET_KEY_NAME>

Observação

Também é possível armazenar a ID do workspace no Key Vault. Confira as etapas anteriores e armazene a ID do workspace com o nome secreto SparkLogAnalyticsWorkspaceId. Como alternativa, é possível usar a configuração spark.synapse.logAnalytics.keyVault.key.workspaceId para especificar o nome secreto da ID do workspace no Key Vault.

Opção 3. Configurar usando um serviço vinculado

Observação

Nesta opção, você precisa conceder permissão de leitura de segredo à identidade gerenciada do workspace. Para obter mais informações, confira como Fornecer acesso a chaves, certificados e segredos do Key Vault usando um controle de acesso baseado em função do Azure.

Execute as seguintes etapas para configurar um serviço vinculado ao Key Vault no Synapse Studio a fim de armazenar a chave do workspace:

  1. Siga todas as etapas da "Opção 2" mostrada na seção anterior.

  2. Crie um serviço vinculado ao Key Vault no Synapse Studio:

    a. Acesse Synapse Studio>Gerenciar>Serviços vinculados, depois clique em Novo.

    b. Na caixa de pesquisa, digite Azure Key Vault.

    c. Insira um nome para o serviço vinculado.

    d. Selecione o cofre de chaves, depois clique em Criar.

  3. Adicione o item spark.synapse.logAnalytics.keyVault.linkedServiceName à configuração do Apache Spark.

spark.synapse.logAnalytics.enabled true
spark.synapse.logAnalytics.workspaceId <LOG_ANALYTICS_WORKSPACE_ID>
spark.synapse.logAnalytics.keyVault.key.secret <AZURE_KEY_VAULT_SECRET_KEY_NAME>
spark.synapse.logAnalytics.keyVault.linkedServiceName <LINKED_SERVICE_NAME>

Para obter uma lista das configurações do Apache Spark, confira Configurações disponíveis do Apache Spark

Etapa 3: Criar uma configuração do Apache Spark

É possível criar uma Configuração do Apache Spark para seu workspace e, ao criar a definição de trabalho do Notebook ou do Apache Spark, pode selecionar a configuração do Apache Spark que deseja usar com o pool do Spark. Ao selecioná-lo, os detalhes da configuração são exibidos.

  1. Selecione Gerenciar>configurações do Apache Spark.

  2. Selecione o botão Novo para criar uma nova configuração do Apache Spark.

  3. A nova página de configuração do Apache Spark será aberta após você selecionar o botão Novo.

    Captura de tela que cria a configuração do Spark.

  4. Para Nome, digite seu nome preferencial e válido.

  5. Para Descrição, digite alguma descrição nele.

  6. Para Anotações, adicione anotações clicando no botão Novo e também é possível excluir anotações existentes selecionando e clicando no botão Excluir.

  7. Para Propriedades de configuração, adicione todas as propriedades da opção de configuração escolhida clicando no botão Adicionar. Para Propriedade, adicione o nome da propriedade conforme listado, e para Valor, use o valor coletado na etapa 2. Se você não adicionar uma propriedade, o Azure Synapse usará o valor padrão quando aplicável.

    Captura de tela com um exemplo para atualizar as propriedades de configuração.

Enviar um aplicativo Apache Spark e exibir os logs e as métricas

Este é o procedimento:

  1. Envie um aplicativo Apache Spark para o pool do Apache Spark configurado na etapa anterior. É possível usar uma das opções abaixo para executar essa ação:

    • Execute um notebook no Synapse Studio.
    • No Synapse Studio, envie um trabalho em lotes do Apache Spark por meio de uma definição de trabalho do Apache Spark.
    • Execute um pipeline que contém uma atividade do Apache Spark.
  2. Acesse o workspace do Log Analytics indicado, depois veja as métricas e os logs do aplicativo ao iniciar a execução do aplicativo Apache Spark.

Gravar logs de aplicativo personalizados

Você pode usar a biblioteca do Apache Log4j para gravar logs personalizados.

Exemplo para Scala:

%%spark
val logger = org.apache.log4j.LogManager.getLogger("com.contoso.LoggerExample")
logger.info("info message")
logger.warn("warn message")
logger.error("error message")
//log exception
try {
      1/0
 } catch {
      case e:Exception =>logger.warn("Exception", e)
}
// run job for task level metrics
val data = sc.parallelize(Seq(1,2,3,4)).toDF().count()

Exemplo para PySpark:

%%pyspark
logger = sc._jvm.org.apache.log4j.LogManager.getLogger("com.contoso.PythonLoggerExample")
logger.info("info message")
logger.warn("warn message")
logger.error("error message")

Usar a pasta de trabalho de exemplo para visualizar as métricas e os logs

  1. Baixe a pasta de trabalho.

  2. Abra e copie o conteúdo do arquivo da pasta de trabalho.

  3. No portal do Azure, selecione Workspace do Log Analytics>Pastas de Trabalho.

  4. Abra a pasta de trabalho Vazia. Use o modo Editor Avançado clicando no ícone </>.

  5. Cole em algum código JSON existente.

  6. Clique em Aplicar, depois selecione Edição Concluída.

    Uma captura de tela mostrando a nova pasta de trabalho.

    Uma captura de tela mostrando de que modo importar uma pasta de trabalho.

Em seguida, envie seu aplicativo Apache Spark para o pool do Apache Spark configurado. Depois que o aplicativo entrar no estado de execução, selecione o aplicativo em execução na lista suspensa da pasta de trabalho.

Uma captura de tela mostrando uma pasta de trabalho.

É possível personalizar a pasta de trabalho. Por exemplo, é possível usar consultas do Kusto e configurar alertas.

Uma captura de tela de como personalizar uma pasta de trabalho com uma consulta e alertas.

Consultar dados com o Kusto

O seguinte exemplo mostra como consultar eventos do Apache Spark:

SparkListenerEvent_CL
| where workspaceName_s == "{SynapseWorkspace}" and clusterName_s == "{SparkPool}" and livyId_s == "{LivyId}"
| order by TimeGenerated desc
| limit 100 

Veja um exemplo de como consultar o driver do aplicativo Apache Spark e os logs executores:

SparkLoggingEvent_CL
| where workspaceName_s == "{SynapseWorkspace}" and clusterName_s == "{SparkPool}" and livyId_s == "{LivyId}"
| order by TimeGenerated desc
| limit 100

Veja também um exemplo de como consultar métricas do Apache Spark:

SparkMetrics_CL
| where workspaceName_s == "{SynapseWorkspace}" and clusterName_s == "{SparkPool}" and livyId_s == "{LivyId}"
| where name_s endswith "jvm.total.used"
| summarize max(value_d) by bin(TimeGenerated, 30s), executorId_s
| order by TimeGenerated asc

Criar e gerenciar alertas

Os usuários podem executar uma consulta para avaliar as métricas e os logs em uma frequência definida, bem como disparar um alerta com base nos resultados. Para obter mais informações, confira como Criar, ver e gerenciar alertas de logs usando o Azure Monitor.

Workspace do Azure Synapse com a proteção contra exfiltração dos dados habilitada

Após o workspace do Azure Synapse ser criado com a proteção contra exfiltração dos dados habilitada,

Quando quiser habilitar esse recurso, você precisará criar solicitações de conexão do ponto de extremidade privado gerenciado nos Escopos de link privado do Azure Monitor (AMPLS) nos locatários aprovados do Microsoft Entra no workspace.

Você pode seguir as etapas abaixo para criar uma conexão de ponto de extremidade privado gerenciada para escopos de link privado do Azure Monitor (AMPLS):

  1. Se não houver um AMPLS, siga a configuração de conexão do Link Privado do Azure Monitor para criar um.
  2. Navegue até seu AMPLS no portal do Azure e, na página Recursos do Azure Monitor, selecione Adicionar para adicionar a conexão a seu workspace do Azure Log Analytics.
  3. Navegue até Synapse Studio > Gerenciar > Pontos de extremidade privados gerenciados, selecione o botão Novo, selecione Escopos de Link Privado do Azure Monitor e continuar.

    Captura de tela da criação do ponto de extremidade privado gerenciado do AMPLS 1.

  4. Escolha o escopo de link privado do Azure Monitor que você criou e selecione o botão Criar.

    Captura de tela da criação do ponto de extremidade privado gerenciado do AMPLS 2.

  5. Aguarde alguns minutos para o provisionamento do ponto de extremidade privado.
  6. Navegue até seu AMPLS no portal do Azure e, na página Conexões de ponto de extremidade privado, selecione a conexão provisionada e Aprovar.

Observação

  • O objeto AMPLS tem vários limites que você deve considerar ao planejar a configuração do Link Privado. Confira Limites do AMPLS para obter uma análise mais profunda desses limites.
  • Verifique se você tem a permissão correta para criar um ponto de extremidade privado.