Udostępnij za pośrednictwem


Włączanie statystyk skanowania dla zapytań

Uwaga

Wycofamy usługę Azure HDInsight w usłudze AKS 31 stycznia 2025 r. Przed 31 stycznia 2025 r. należy przeprowadzić migrację obciążeń do usługi Microsoft Fabric lub równoważnego produktu platformy Azure, aby uniknąć nagłego zakończenia obciążeń. Pozostałe klastry w ramach subskrypcji zostaną zatrzymane i usunięte z hosta.

Tylko podstawowa pomoc techniczna będzie dostępna do daty wycofania.

Ważne

Ta funkcja jest aktualnie dostępna jako funkcja podglądu. Dodatkowe warunki użytkowania dla wersji zapoznawczych platformy Microsoft Azure obejmują więcej warunków prawnych, które dotyczą funkcji platformy Azure, które znajdują się w wersji beta, w wersji zapoznawczej lub w inny sposób nie zostały jeszcze wydane w wersji ogólnodostępnej. Aby uzyskać informacje o tej konkretnej wersji zapoznawczej, zobacz Informacje o wersji zapoznawczej usługi Azure HDInsight w usłudze AKS. W przypadku pytań lub sugestii dotyczących funkcji prześlij żądanie w usłudze AskHDInsight , aby uzyskać szczegółowe informacje i postępuj zgodnie z nami, aby uzyskać więcej aktualizacji w społeczności usługi Azure HDInsight.

Często zespoły danych są wymagane do zbadania wydajności lub optymalizacji zapytań w celu zwiększenia wykorzystania zasobów lub spełnienia wymagań biznesowych.

W aplikacji Trino for HDInsight w usłudze AKS dodano nową funkcję, która umożliwia użytkownikowi przechwytywanie statystyk skanowania dla dowolnego łącznika. Ta funkcja zapewnia bardziej szczegółowy wgląd w profil wydajności zapytań poza to, co jest dostępne w statystykach generowanych przez Trino.

Tę funkcję można włączyć przy użyciu właściwości collect_raw_scan_statisticssesji i, wykonując następujące polecenie Trino:

SET SESSION collect_raw_scan_statistics=true

Po włączeniu operatorów źródłowych w zapytaniu, takich jak TableScanOperator, ScanFilterAndProject itp. mają statystyki dotyczące skanowania danych, stopień szczegółowości jest na wystąpienie operatora w potoku.

Napiwek

Statystyki skanowania są przydatne podczas identyfikowania wąskich gardeł, gdy klaster lub zapytanie nie jest ograniczone, a wydajność odczytu zapytania wymaga badania. Pomaga również zrozumieć profil wykonywania zapytania z perspektywy poziomu podziału.

Uwaga

Obecnie przechwycona liczba podziałów na proces roboczy jest ograniczona do 1000 ze względu na ograniczenia rozmiaru generowanych danych. Jeśli liczba podziałów na proces roboczy dla zapytania przekroczy ten limit, zwracane są 1000 najdłużej działających podziałów.

Jak uzyskać dostęp do statystyk skanowania

Po ustawieniu właściwości sesji kolejne zapytania w sesji zaczynają przechwytywać statystyki od operatorów źródłowych zawsze, gdy są dostępne. Istnieje wiele sposobów, w jaki użytkownicy mogą używać i analizować statystyki skanowania wygenerowane dla zapytania.

Wykonywanie zapytań w formacie Json

Karta Json na stronie Szczegóły zapytania zawiera reprezentację zapytania w formacie JSON, która zawiera statystyki na każdym etapie, potok zapytania. Po ustawieniu właściwości sesji plik json zawiera nowe pole o nazwie scanStats w pliku queryStats.operatorSummaries[*]. Tablica zawiera jeden obiekt na wystąpienie operatora.

W poniższym przykładzie pokazano kod JSON zapytania przy użyciu hive connector statystyk skanowania i włączony.

Uwaga

Podsumowanie statystyk skanowania zawiera informacje splitInfo, które są wypełniane przez łącznik. Dzięki temu użytkownicy mogą kontrolować, jakie informacje o magazynie chcą uwzględnić w swoich łącznikach niestandardowych.

Zrzut ekranu przedstawiający podsumowanie wydajności zapytań.

Interfejs użytkownika statystyk skanowania

Możesz znaleźć nową kartę o nazwie Scan Stats na stronie Szczegóły zapytania, która wizualizuje statystyki generowane przez tę funkcję i udostępnia szczegółowe informacje na temat wydajności podziału ziarna każdego procesu roboczego. Strona umożliwia użytkownikom wyświetlanie profilu wykonywania trino dla zapytania z informacjami takimi jak równoczesne operacje odczytu w czasie i przepływności.

Zrzut ekranu przedstawiający dodawanie stanu skanowania.

Poniższy przykład przedstawia stronę zapytania z włączonymi statystykami skanowania.

Zrzut ekranu przedstawiający kartę stanu skanowania.

Korzystanie z rejestratora Microsoft Query**

Rejestrator Microsoft Query ma wbudowaną obsługę tej funkcji. Po włączeniu tej funkcji wtyczka rejestratora zapytań wypełnia tabelę o nazwie operatorstats wraz z tabelą zdarzeń zapytania, ta tabela jest zdenormalizowana, aby każde wystąpienie operatora było jednym wierszem dla każdego zapytania.