다음을 통해 공유


autocluster 플러그 인

적용 대상: ✅Microsoft Fabric✅Azure Data Explorer

autocluster 는 데이터에서 불연속 특성(차원)의 일반적인 패턴을 찾습니다. 그런 다음 100개 또는 100,000개 행에 관계없이 원래 쿼리의 결과를 몇 가지 패턴으로 줄입니다. 플러그 인은 오류(예: 예외 또는 크래시)를 분석하는 데 도움이 되도록 개발되었지만 필터링된 데이터 세트에서 잠재적으로 작동할 수 있습니다. 플러그 인은 연산자를 사용하여 호출됩니다 evaluate .

참고 항목

autocluster 는 주로 다음 문서의 초기값 확장 알고리즘을 기반으로 합니다. 이산 특성을 사용하는 원격 분석 데이터 마이닝 알고리즘입니다.

구문

T evaluate (| autocluster [SizeWeight [, WeightColumn [, NumSeeds [, CustomWildcard [, ... ]]]]])

구문 규칙에 대해 자세히 알아봅니다.

매개 변수

매개 변수는 구문에 지정된 대로 순서를 지정해야 합니다. 기본값을 사용해야 함을 나타내려면 문자열 타일드 값을 ~넣습니다. 자세한 내용은 예제를 참조하세요.

속성 Type 필수 설명
T string ✔️ 입력 테이블 형식 식입니다.
SizeWeight double 제네릭(높은 범위)과 정보(많은 공유) 값 간의 균형을 제어하는 0에서 1 사이의 double입니다. 이 값을 늘리면 일반적으로 적용 범위를 확장하는 동안 패턴의 양이 줄어듭니다. 반대로 이 값을 줄이면 공유 값이 증가하고 적용 범위가 더 작은 것이 특징인 보다 구체적인 패턴이 생성됩니다. 기본값은 0.5입니다. 수식은 가중 SizeWeight 치와 1-SizeWeight.
WeightColumn string 지정된 가중치에 따라 입력의 각 행을 고려합니다. 각 행의 기본 가중치는 .입니다 1. 인수는 숫자 정수 열의 이름이어야 합니다. 가중치 열의 일반적인 사용은 각 행에 이미 포함된 데이터의 샘플링 또는 버킷팅 또는 집계를 고려하는 것입니다.
NumSeeds int 초기 로컬 검색 지점 수를 결정합니다. 시드 수를 조정하면 데이터 구조에 따라 결과 수량 또는 품질에 영향을 줍니다. 시드를 늘리면 결과가 향상되지만 쿼리 절충이 느려질 수 있습니다. 5개 미만을 줄이면 무시할 수 있는 개선 사항이 생성되지만, 50을 초과하면 더 많은 패턴이 생성되는 경우가 거의 없습니다. 기본값은 25입니다.
CustomWildcard string 이 열에 대한 제한이 없음을 나타내는 결과 테이블의 특정 형식에 대한 와일드카드 값을 설정하는 형식 리터럴입니다. 기본값은 null빈 문자열을 나타내는 것입니다. 기본값이 데이터에서 좋은 값이면 다른 와일드카드 값(예: *.)을 사용해야 합니다. 여러 사용자 지정 와일드카드를 연속해서 추가하여 포함할 수 있습니다.

반품

플러그 인은 autocluster 일반적으로 작은 패턴 집합을 반환합니다. 패턴은 여러 불연속 특성에서 공유 공통 값을 사용하여 데이터의 일부를 캡처합니다. 결과의 각 패턴은 행으로 표시됩니다.

첫 번째 열은 세그먼트 ID입니다. 다음 두 열은 패턴에 의해 캡처된 원래 쿼리의 행 수와 백분율입니다. 나머지 열은 원래 쿼리에서 가져옵니다. 해당 값은 열의 특정 값이거나 변수 값을 의미하는 와일드카드 값(기본적으로 null)입니다.

패턴은 고유하지 않고 겹칠 수 있으며 일반적으로 모든 원래 행을 포함하지는 않습니다. 일부 행은 패턴에 속하지 않을 수 있습니다.

입력 파이프의 위치프로젝트를 사용하여 관심 있는 데이터로만 데이터를 줄입니다.

흥미로운 행을 찾으면 필터에 특정 값을 추가하여 자세히 살펴볼 수 있습니다 where .

예제

평가 사용

T | evaluate autocluster()

자동 클러스터 사용

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

출력

SegmentId 개수 백분율 State(상태) EventType 피해
0 2278 38.7 Hail 아니오
1 512 8.7 뇌우를 동반한 바람
2 898 15.3 TEXAS

사용자 지정 와일드카드 사용

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

출력

SegmentId 개수 백분율 State(상태) EventType 피해
0 2278 38.7 * Hail 아니오
1 512 8.7 * 뇌우를 동반한 바람
2 898 15.3 TEXAS * *