En este artículo se responden las preguntas más frecuentes sobre la ingesta de Azure Data Explorer.
Latencias de datos y ingesta en cola
¿Cómo afecta la ingesta en cola a mis datos?
El administrador de procesamiento por lotes almacena en búferes y los datos de entrada por lotes en función de la configuración de ingesta en la directiva de procesamiento por lotes de ingesta. La directiva de procesamiento por lotes de ingesta establece límites de lote según tres factores de limitación, lo que se alcanza por primera vez: el tiempo transcurrido desde la creación del lote, el número acumulado de elementos (blobs) o el tamaño total del lote. La configuración de procesamiento por lotes predeterminada es de 5 minutos / 1 GB / 1000 blobs, lo que significa que habrá al menos un retraso de 5 minutos al poner en cola los datos de ejemplo para la ingesta.
¿Debo usar la ingesta de streaming o en cola?
La ingesta en cola está optimizada para un alto rendimiento de ingesta y es el tipo preferido y más eficaz de ingesta. En cambio, la ingesta de streaming está optimizada para una latencia de ingesta baja. Obtenga más información sobre la ingesta en cola frente a la ingesta de streaming.
¿Es necesario cambiar la directiva de procesamiento por lotes?
Si la configuración predeterminada de la directiva de procesamiento por lotes de ingesta no se ajusta a sus necesidades, puede intentar reducir la directiva time
de procesamiento por lotes .
Consulte Optimización del rendimiento.
También debe actualizar la configuración al escalar verticalmente la ingesta.
Al cambiar la configuración de la directiva de procesamiento por lotes, puede tardar hasta 5 minutos en surtir efecto.
¿Qué causa la latencia de ingesta en cola?
La latencia de ingesta puede derivar de la configuración de la directiva de procesamiento por lotes de ingesta o de una compilación de trabajos pendientes de datos. Para solucionar esto, ajuste la configuración de la directiva de procesamiento por lotes. Las latencias que forman parte del proceso de ingesta se pueden supervisar.
¿Dónde puedo ver las métricas de latencia de ingesta en cola?
Para ver las métricas de latencia de ingesta en cola, consulte Supervisión de la latencia de ingesta. Las métricas Stage Latency
y Discovery Latency
muestran latencias en el proceso de ingesta y revelan si hay latencias largas.
¿Cómo puedo acortar las latencias de ingesta en cola?
Puede obtener información sobre las latencias y ajustar la configuración en la directiva de procesamiento por lotes para solucionar problemas que provocan latencias como trabajos pendientes de datos, procesamiento por lotes ineficaz, procesamiento por lotes de grandes cantidades de datos sin comprimir o ingesta de cantidades muy pequeñas de datos.
¿Cómo se calcula el tamaño de los datos de procesamiento por lotes?
El tamaño de los datos de la directiva de procesamiento por lotes se establece para los datos sin comprimir. Al ingerir datos comprimidos, el tamaño de los datos sin comprimir se calcula a partir de parámetros de procesamiento por lotes de ingesta, metadatos de archivos ZIP o factor sobre el tamaño de archivo comprimido.
Supervisión, métricas y errores de ingesta
¿Cómo puedo supervisar los problemas de ingesta?
Puede supervisar la ingesta mediante métricas y configurar y usar registros de diagnóstico de ingesta para una supervisión detallada de nivel de tabla, ver códigos de error de ingesta detallados, etc. Puede seleccionar métricas específicas para realizar un seguimiento, elegir cómo agregar los resultados y crear gráficos de métricas para verlos en el panel. Obtenga más información sobre las métricas de streaming y cómo supervisar la ingesta en cola.
¿Dónde puedo ver información sobre la ingesta?
Puede usar Azure Monitor Insights del portal para ayudarle a comprender cómo funciona Azure Data Explorer y cómo se usa. La vista Información se basa en métricas y registros de diagnóstico que se pueden transmitir a un área de trabajo de Log Analytics. Use el comando .dup-next-ingest para duplicar la siguiente ingesta en un contenedor de almacenamiento y revise los detalles y los metadatos de la ingesta.
¿Dónde se comprueban los errores de ingesta?
El proceso de ingesta completo se puede supervisar mediante métricas de ingesta y registros de diagnóstico.
Los errores de ingesta se pueden supervisar mediante la IngestionResult
métrica o el registro de FailedIngestion
diagnóstico.
El .show ingestion failures
comando muestra los errores de ingesta asociados a los comandos de administración de ingesta de datos y no se recomienda para supervisar los errores.
El .dup-next-failed-ingest
comando proporciona información sobre la siguiente ingesta con errores mediante la carga de archivos de ingesta y metadatos en un contenedor de almacenamiento.
Esto puede ser útil para comprobar un flujo de ingesta, aunque no se recomienda realizar una supervisión estable.
¿Qué puedo hacer si encuentro muchos errores de reintento?
Las métricas que incluyen el estado de la RetryAttemptsExceeded
métrica muchas veces indican que la ingesta superó el límite de intentos de reintento o el límite de intervalo de tiempo después de un error transitorio recurrente.
Si este error también aparece en el registro de diagnóstico con código General_RetryAttemptsExceeded
de error y los detalles "No se pudo acceder al almacenamiento y obtener información para el blob", esto indica un problema de acceso de almacenamiento de carga alta.
Durante la ingesta de Event Grid, Azure Data Explorer solicita detalles del blob de la cuenta de almacenamiento.
Cuando la carga es demasiado alta en una cuenta de almacenamiento, es posible que se produzca un error en el acceso al almacenamiento y no se pueda recuperar la información necesaria para la ingesta.
Si los intentos pasan la cantidad máxima de reintentos definidos, Azure Data Explorer deja de intentar ingerir el blob con errores.
Para evitar un problema de carga, use una cuenta de Premium Storage o divida los datos ingeridos en más cuentas de almacenamiento.
Para detectar errores relacionados, compruebe los FailedIngestion
registros de diagnóstico de los códigos de error y las rutas de acceso de los blobs con errores.
Ingesta de datos históricos
¿Cómo puedo ingerir grandes cantidades de datos históricos y garantizar un buen rendimiento?
Para ingerir de forma eficaz grandes cantidades de datos históricos, use LightIngest. Para obtener más información, consulte ingesta de datos históricos. Para mejorar el rendimiento de muchos archivos pequeños, ajuste la directiva de procesamiento por lotes, cambie las condiciones de procesamiento por lotes y las latencias de direcciones. Para mejorar el rendimiento de la ingesta al ingerir archivos de datos extremadamente grandes, use Azure Data Factory (ADF), un servicio de integración de datos basado en la nube.
Ingesta de datos no válidos
¿Qué ocurre cuando se ingieren datos no válidos?
Es posible que los datos con formato incorrecto, no se puedan analizar, demasiado grandes o no se ajusten al esquema, podrían no ingerirse correctamente. Para obtener más información, consulte Ingesta de datos no válidos.
SDK y conectores
¿Cómo puedo mejorar la ingesta con SDK?
Al ingerir a través del SDK, puede usar la configuración de la directiva de procesamiento por lotes de ingesta para mejorar el rendimiento. Intente reducir incrementalmente el tamaño de los datos ingeridos en la tabla o la directiva de procesamiento por lotes de base de datos hacia 250 MB. Compruebe si hay una mejora.
¿Cómo puedo ajustar kusto kafka sink para mejorar el rendimiento de la ingesta?
Los usuarios receptores de Kafka deben ajustar el conector para trabajar junto con la directiva de procesamiento por lotes de ingesta mediante la optimización del tiempo de procesamiento por lotes, el tamaño y el número de elemento.