Complemento autocluster
Se aplica a: ✅Microsoft Fabric✅Azure Data Explorer
autocluster
busca patrones comunes de atributos discretos (dimensiones) en los datos. A continuación, reduce los resultados de la consulta original, ya sea 100 o 100 000 filas, a algunos patrones. El complemento se desarrolló para ayudar a analizar errores (como excepciones o bloqueos), pero puede funcionar potencialmente en cualquier conjunto de datos filtrado. El complemento se invoca con el evaluate
operador .
Nota:
autocluster
se basa en gran medida en el algoritmo Seed-Expand del siguiente documento: Algoritmos para la minería de datos de telemetría mediante atributos discretos.
Sintaxis
T (
autocluster
|
evaluate
[SizeWeight [,
WeightColumn [,
NumSeeds [ ,
CustomWildcard [,
... ]]]]])
Obtenga más información sobre las convenciones de sintaxis.
Parámetros
Los parámetros deben ordenarse según se especifique en la sintaxis . Para indicar que se debe usar el valor predeterminado, coloque el valor ~
de tilde de cadena . Para más información, consulte Ejemplos.
Nombre | Type | Obligatorio | Descripción |
---|---|---|---|
T | string |
✔️ | Expresión tabular de entrada. |
SizeWeight | doble | Un doble entre 0 y 1 que controla el equilibrio entre los valores genéricos (de alta cobertura) e informativos (muchos compartidos). Aumentar este valor normalmente reduce la cantidad de patrones al expandir la cobertura. Por el contrario, reducir este valor genera patrones más específicos caracterizados por un aumento de los valores compartidos y una cobertura de porcentaje más pequeña. El valor predeterminado es 0.5 . La fórmula es una media geométrica ponderada con pesos SizeWeight y 1-SizeWeight . |
|
WeightColumn | string |
Considera cada fila de la entrada según el peso especificado. Cada fila tiene un peso predeterminado de 1 . El argumento debe ser un nombre de una columna de entero numérico. Un uso común de una columna de peso es tener en cuenta el muestreo o la agrupación en depósitos o agregaciones de los datos que ya están incrustados en cada fila. |
|
NumSeeds | int |
Determina el número de puntos de búsqueda locales iniciales. Ajustar el número de semillas afecta a la cantidad de resultados o la calidad en función de la estructura de datos. El aumento de las semillas puede mejorar los resultados, pero con un equilibrio de consulta más lento. Reducir por debajo de cinco produce mejoras insignificantes, mientras que el aumento de más de 50 rara vez genera más patrones. El valor predeterminado es 25 . |
|
CustomWildcard | string |
Literal de tipo que establece el valor comodín de un tipo específico en la tabla de resultados, lo que indica que no hay ninguna restricción en esta columna. El valor predeterminado es null , que representa una cadena vacía. Si el valor predeterminado es un buen valor en los datos, se debe usar un valor comodín diferente, como * . Puede incluir varios caracteres comodín personalizados agregándolos consecutivamente. |
Devoluciones
Normalmente, el autocluster
complemento devuelve un pequeño conjunto de patrones. Los patrones capturan partes de los datos con valores comunes compartidos entre varios atributos discretos. Cada patrón de los resultados se representa mediante una fila.
La primera columna es el identificador de segmento. Las dos columnas siguientes son el número y el porcentaje de filas fuera de la consulta original capturadas por el patrón. Las columnas restantes provienen de la consulta original. Su valor es un valor específico de la columna o un valor comodín (que son null de forma predeterminada) que significan valores de variable.
Los patrones no son distintos, pueden estar superpuestos y normalmente no cubren todas las filas originales. Algunas filas no pueden estar en cualquier patrón.
Sugerencia
Use dónde y proyectar en la canalización de entrada para reducir los datos a lo que le interesa.
Al buscar una fila interesante, puede profundizar aún más mediante la adición de sus valores específicos a su filtro where
.
Ejemplos
Uso de evaluate
T | evaluate autocluster()
Uso del clúster automático
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)
Salida
SegmentId | Count | Porcentaje | State | EventType | Daños |
---|---|---|---|---|---|
0 | 2278 | 38,7 | Granizo | NO | |
1 | 512 | 8.7 | Viento de tormenta | SÍ | |
2 | 898 | 15,3 | TEXAS |
Uso de caracteres comodín personalizados
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')
Salida
SegmentId | Count | Porcentaje | State | EventType | Daños |
---|---|---|---|---|---|
0 | 2278 | 38,7 | * | Granizo | NO |
1 | 512 | 8.7 | * | Viento de tormenta | SÍ |
2 | 898 | 15,3 | TEXAS | * | * |