Recopilación de los registros de aplicaciones y las métricas de Apache Spark mediante Azure Event Hubs (versión preliminar)

Artículo
11/06/2024

La extensión de emisor de diagnóstico de Apache Spark de Fabric es una biblioteca que permite a las aplicaciones de Apache Spark emitir registros, registros de eventos y métricas a varios destinos, incluidos Azure Log Analytics, Azure Storage y Azure Event Hubs.

En este tutorial aprenderá a usar la extensión de emisión de diagnósticos de Apache Spark de Fabric para enviar registros, registros de eventos y métricas de la aplicación Apache Spark a Azure Event Hubs.

Recopilación de registros y métricas en Azure Event Hubs

Paso 1: Crear una instancia de Azure Event Hubs

Para recopilar registros y métricas de diagnóstico puede usar una instancia de Azure Event Hubs existente. Si no tiene, puede crear un centro de eventos.

Paso 2: Crear un artefacto de entorno de Fabric con la configuración de Apache Spark

Opción 1: Configurar con la cadena de conexión de Azure Event Hubs

Crear un artefacto de entorno de Fabric en Fabric
Agregue las siguientes propiedades de Spark con los valores adecuados al artefacto de entorno o seleccione Agregar desde .yml en la cinta de opciones para descargar el archivo yaml de ejemplo, que ya contiene las siguientes propiedades.
```
spark.synapse.diagnostic.emitters: MyEventHub
spark.synapse.diagnostic.emitter.MyEventHub.type: "AzureEventHub"
spark.synapse.diagnostic.emitter.MyEventHub.categories: "Log,EventLog,Metrics"
spark.synapse.diagnostic.emitter.MyEventHub.secret: <connection-string>
spark.fabric.pools.skipStarterPools: "true" //Add this Spark property when using the default pool.
```
Rellene los parámetros <connection-string> en el archivo de configuración. Para obtener más información, consulte configuraciones de Azure Event Hubs.

Opción 2: Configuración con Azure Key Vault

Nota:

Problema conocido: provisionalmente, no se puede iniciar una sesión con la opción 2. Actualmente, almacenar los secretos en Key Vault impide que se inicien las sesiones de Spark. Dé prioridad a la configuración mediante el método descrito en la opción 1.

Asegúrese de que a los usuarios que envían aplicaciones de Apache Spark se les conceden permisos de lectura de secretos. Para obtener más información, consulta Acceso a las claves, los certificados y los secretos de Key Vault con un control de acceso basado en rol de Azure.

Para configurar Azure Key Vault para almacenar la clave del área de trabajo:

Cree un almacén de claves en Azure Portal y desplácese hasta él.
En la página de configuración del almacén de claves, seleccione Secretos y, a continuación, Generar/importar.
En la pantalla Crear un secreto, elija los siguientes valores:
- Nombre: escriba un nombre para el secreto.
- Valor: escriba el valor de <connection-string> del secreto.
- Deje las restantes opciones con sus valores predeterminados. Seleccione Crear.
Creación de un artefacto de entorno de Fabric en Fabric.

Agregue las siguientes propiedades de Spark. O bien, seleccione Agregar desde .yml de la cinta de opciones para descargar el archivo yaml de ejemplo que incluye las siguientes propiedades de Spark.

spark.synapse.diagnostic.emitters: MyEventHub
spark.synapse.diagnostic.emitter.MyEventHub.type: "AzureEventHub"
spark.synapse.diagnostic.emitter.MyEventHub.categories: "Log,EventLog,Metrics"
spark.synapse.diagnostic.emitter.MyEventHub.secret.keyVault: <AZURE_KEY_VAULT_NAME>
spark.synapse.diagnostic.emitter.MyEventHub.secret.keyVault.secretName: <AZURE_KEY_VAULT_SECRET_KEY_NAME>
spark.fabric.pools.skipStarterPools: "true" //Add this Spark property when using the default pool.

En el archivo de configuración, rellene estos parámetros: <AZURE_KEY_VAULT_NAME>, <AZURE_KEY_VAULT_SECRET_KEY_NAME>. Para más información sobre estos parámetros, consulte configuraciones de Azure Event Hubs.

Guarde y publique los cambios.

Paso 3: Adjuntar el artefacto de entorno a cuadernos o definiciones de trabajos de Spark, o establecerlo como el valor predeterminado del área de trabajo

Para adjuntar el entorno a cuadernos o definiciones de trabajos de Spark:

Vaya al cuaderno específico o definición de trabajo de Spark en Fabric.
Seleccione el menú Entorno en la pestaña Inicio y seleccione el entorno con las propiedades de Spark de diagnóstico configuradas.
La configuración se aplica al iniciar una sesión de Spark.

Para establecer el entorno como valor predeterminado del área de trabajo:

Vaya a Configuración del área de trabajo en Fabric.
Busque la configuración de Spark en la configuración del área de trabajo (Configuración del área de trabajo -> Ingeniería/ciencia de datos ->Configuración de Spark).
Seleccione la pestaña Entorno, elija el entorno con las propiedades de Spark de diagnóstico configuradas y haga clic en Guardar.

Nota:

Solo los administradores del área de trabajo pueden administrar las configuraciones del área de trabajo. Los cambios realizados aquí se aplicarán a todos los cuadernos y definiciones de trabajo de Spark adjuntos a la configuración del área de trabajo. Para más información, consulte Configuración del área de trabajo de Fabric.

Configuraciones disponibles

Configuración	Descripción
`spark.synapse.diagnostic.emitters`	Necesario. Nombres de destino separados por comas de emisores de diagnósticos.
`spark.synapse.diagnostic.emitter.<destination>.type`	Necesario. Tipo de destino integrado. Para habilitar Azure Event Hubs como destino, el valor debe ser `AzureEventHub`.
`spark.synapse.diagnostic.emitter.<destination>.categories`	Opcional. Categorías de registro seleccionadas separadas por comas. Entre los valores disponibles se incluyen: `DriverLog`, `ExecutorLog`, `EventLog` y `Metrics`. Si no se especifica, se establece en todas categorías.
`spark.synapse.diagnostic.emitter.<destination>.secret`	Opcional. Cadena de conexión de instancia de Azure Event Hubs. Este campo debe coincidir con este patrón `Endpoint=sb://<FQDN>/;SharedAccessKeyName=<KeyName>;SharedAccessKey=<KeyValue>;EntityPath=<PathName>`.
`spark.synapse.diagnostic.emitter.<destination>.secret.keyVault`	Obligatorio si no se ha especificado `.secret`. Nombre del almacén de claves de Azure donde se almacena el secreto (cadena de conexión).
`spark.synapse.diagnostic.emitter.<destination>.secret.keyVault.secretName`	Requerido si se especifica `.secret.keyVault`. Nombre del almacén de claves de Azure donde se almacena el secreto (cadena de conexión).
`spark.synapse.diagnostic.emitter.<destination>.filter.eventName.match`	Opcional. Nombres de eventos de Spark separados por comas, puede especificar qué eventos se recopilan. Por ejemplo: `SparkListenerApplicationStart,SparkListenerApplicationEnd`
`spark.synapse.diagnostic.emitter.<destination>.filter.loggerName.match`	Opcional. Nombres del registrador Log4j separados por comas, puede especificar qué registros se recopilan. Por ejemplo: `org.apache.spark.SparkContext,org.example.Logger`
`spark.synapse.diagnostic.emitter.<destination>.filter.metricName.match`	Opcional. Sufijos de nombre de métrica de Spark separados por comas, puede especificar qué métricas se recopilan. Por ejemplo: `jvm.heap.used`

Nota:

La cadena de conexión de la instancia de Azure Event Hubs siempre debe incluir EntityPath, que es el nombre de la instancia de Azure Event Hubs.

Ejemplo de datos de registro

Este es un registro de ejemplo en formato JSON:

{
  "timestamp": "2024-09-06T03:09:37.235Z",
  "category": "Log|EventLog|Metrics",
  "fabricLivyId": "<fabric-livy-id>",
  "applicationId": "<application-id>",
  "applicationName": "<application-name>",
  "executorId": "<driver-or-executor-id>",
  "fabricTenantId": "<my-fabric-tenant-id>",
  "capacityId": "<my-fabric-capacity-id>",
  "artifactType": "SynapseNotebook|SparkJobDefinition",
  "artifactId": "<my-fabric-artifact-id>",
  "fabricWorkspaceId": "<my-fabric-workspace-id>",
  "fabricEnvId": "<my-fabric-environment-id>",
  "executorMin": "<executor-min>",
  "executorMax": "<executor-max>",
  "isHighConcurrencyEnabled": "true|false",
  "properties": {
    // The message properties of logs, events and metrics.
    "timestamp": "2024-09-06T03:09:37.235Z",
    "message": "Initialized BlockManager: BlockManagerId(1, vm-04b22223, 34319, None)",
    "logger_name": "org.apache.spark.storage.BlockManager",
    "level": "INFO",
    "thread_name": "dispatcher-Executor"
    //...
  }
}

Áreas de trabajo de Fabric con red virtual administrada

Cree un punto de conexión privado administrado para Azure Event Hubs de destino. Para obtener instrucciones detalladas, consulte Creación y uso de puntos de conexión privados administrados en Microsoft Fabric: Microsoft Fabric.

Una vez aprobado el punto de conexión privado administrado, los usuarios pueden empezar a emitir registros y métricas al Azure Event Hubs de destino.

Compartir a través de

Recopilación de los registros de aplicaciones y las métricas de Apache Spark mediante Azure Event Hubs (versión preliminar)

Recopilación de registros y métricas en Azure Event Hubs

Paso 1: Crear una instancia de Azure Event Hubs

Paso 2: Crear un artefacto de entorno de Fabric con la configuración de Apache Spark

Opción 1: Configurar con la cadena de conexión de Azure Event Hubs

Opción 2: Configuración con Azure Key Vault

Paso 3: Adjuntar el artefacto de entorno a cuadernos o definiciones de trabajos de Spark, o establecerlo como el valor predeterminado del área de trabajo

Configuraciones disponibles

Ejemplo de datos de registro

Áreas de trabajo de Fabric con red virtual administrada

Pasos siguientes

Comentarios

Recursos adicionales