Compartir a través de


Activar estadísticas de escaneo para consultas

Importante

Azure HDInsight en AKS se retiró el 31 de enero de 2025. Obtenga más información con este anuncio.

Debe migrar las cargas de trabajo a microsoft Fabric o un producto equivalente de Azure para evitar la terminación repentina de las cargas de trabajo.

Importante

Esta característica está actualmente en versión preliminar. Los Términos de uso complementarios para las versiones preliminares de Microsoft Azure incluyen más términos legales que se aplican a las características de Azure que se encuentran en versión beta, en versión preliminar o, de lo contrario, aún no se han publicado en disponibilidad general. Para obtener información sobre esta versión preliminar específica, consulte información de la versión preliminar de Azure HDInsight en AKS. Para preguntas o sugerencias de características, envíe una solicitud en AskHDInsight con los detalles y síganos para obtener más actualizaciones sobre Comunidad de Azure HDInsight.

A menudo, los equipos de datos son necesarios para investigar el rendimiento o optimizar las consultas para mejorar el uso de recursos o satisfacer los requisitos empresariales.

Se ha agregado una nueva funcionalidad en Trino para HDInsight en AKS que permite al usuario capturar estadísticas de examen para cualquier conector. Esta funcionalidad proporciona información más detallada sobre el perfil de rendimiento de consultas más allá de lo que está disponible en las estadísticas generadas por Trino.

Puede habilitar esta característica mediante propiedad de sesióncollect_raw_scan_statisticsy siguiendo el siguiente comando de Trino:

SET SESSION collect_raw_scan_statistics=true

Una vez habilitado, los operadores de fuente en la consulta como TableScanOperator, ScanFilterAndProject, etc., tienen estadísticas sobre los escaneos de datos, la granularidad se mide por instancia de operador en una canalización.

Propina

Las estadísticas de examen son útiles para identificar cuellos de botella cuando el clúster o la consulta no están limitados por la CPU y el rendimiento de lectura de la consulta necesita ser investigado. También ayuda a comprender el perfil de ejecución de la consulta desde una perspectiva de nivel dividido.

Nota

Actualmente, el número capturado de divisiones por trabajador está limitado a 1000 debido a restricciones de tamaño de los datos generados. Si el número de divisiones por trabajador para la consulta supera este límite, se devuelven las 1000 divisiones con mayor duración.

Cómo acceder a las estadísticas de escaneo

Una vez establecida la propiedad de la sesión, las consultas posteriores de la sesión comienzan a capturar estadísticas de operadores fuente siempre que estén disponibles. Hay varias maneras en que los usuarios pueden consumir y analizar las estadísticas de análisis generadas para una consulta.

Consulta JSON

La pestaña Json de la página Detalles de consulta proporciona la representación JSON de la consulta, que incluía estadísticas en cada fase, canalización de la consulta. Cuando se establece la propiedad session, el json incluye un nuevo campo denominado scanStats en queryStats.operatorSummaries[*]. La matriz contiene un objeto por instancia del operador .

En el ejemplo siguiente se muestra un JSON para una consulta mediante hive connector y estadísticas de escaneo habilitadas.

Nota

El resumen de estadísticas de análisis incluye splitInfo que rellena el conector. Esto permite a los usuarios controlar la información sobre el almacén que le gustaría incluir en sus conectores personalizados.

Captura de pantalla que muestra el resumen del rendimiento de las consultas.

Interfaz de Usuario de Análisis de Estadísticas

Puede encontrar una nueva pestaña denominada Scan Stats en la página Detalles de consulta que visualiza las estadísticas generadas por esta característica y proporciona información sobre el rendimiento detallado de cada trabajador. La página permite a los usuarios ver el perfil de ejecución de Trino para la consulta con información como lecturas concurrentes a lo largo del tiempo y el rendimiento.

Captura de pantalla que muestra la adición del estado del escaneo.

En el siguiente ejemplo se muestra una página para una consulta con estadísticas de análisis habilitadas.

Captura de pantalla que muestra la pestaña estado del escaneo.

Uso del registrador de consultas de Microsoft**

El registrador de consultas de Microsoft tiene compatibilidad integrada con esta característica. Cuando se habilita con esta característica, el complemento del registrador de consultas rellena una tabla denominada operatorstats junto con la tabla de eventos de consulta, esta tabla se desnormaliza para que cada instancia de operador sea una fila para cada consulta.