Udostępnij za pośrednictwem


Przyspieszanie zapytań dla skrótów usługi OneLake — omówienie (wersja zapoznawcza)

Skróty oneLake to odwołania z usługi Eventhouse wskazujące wewnętrzną sieć szkieletową lub źródła zewnętrzne. Ten rodzaj skrótu jest później używany do wykonywania zapytań w zestawach zapytań KQL przy użyciu external_table() funkcji . Zapytania uruchamiane za pośrednictwem skrótów usługi OneLake mogą być mniej wydajne niż na danych pozyskanych bezpośrednio do usługi Eventhouses z powodu różnych czynników, takich jak wywołania sieciowe do pobierania danych z magazynu, brak indeksów i nie tylko.

Przyspieszanie zapytań umożliwia określenie zasad na zewnętrznych tabelach różnicowych, które definiują liczbę dni buforowania danych dla zapytań o wysokiej wydajności.

Przyspieszanie zapytań jest obsługiwane w usłudze Eventhouse w przypadku tabel różnicowych z skrótów OneLake, Azure Data Lake Store Gen1, Amazon S3, Google Cloud Services, tabel zewnętrznych usługi Azure Blob Storage i wszystkich miejsc docelowych obsługiwanych przez skróty oneLake.

Ważne

Ta funkcja jest dostępna w wersji zapoznawczej.

Uwaga

  • Jeśli masz zagadnienia dotyczące zgodności, które wymagają przechowywania danych w określonym regionie, upewnij się, że pojemność usługi Eventhouse znajduje się w tym samym regionie co dane tabeli zewnętrznej lub skrótu.

  • Przyspieszone tabele zewnętrzne dodają do magazynu COGS i do magazynu SSD zużywają usługę Eventhouse, podobnie jak w przypadku zwykłych tabel w bazie danych KQL. Ilość danych do buforowania można kontrolować, definiując właściwość Gorąca w zasadach przyspieszania zapytań. Działanie indeksowania i pozyskiwania przyczynia się również do wykorzystania zasobów obliczeniowych.

Kiedy należy używać przyspieszania zapytań dla skrótów OneLake?

Przyspieszanie zapytań buforuje dane podczas ich działania w usłudze OneLake, zapewniając wydajność porównywalną z pozyskiwaniem danych w usłudze Eventhouse. Korzystając z tej funkcji, można przyspieszyć lądowanie danych w usłudze OneLake, w tym istniejących danych i wszelkich nowych aktualizacji oraz oczekiwać podobnej wydajności. Eliminuje to konieczność zarządzania potokami pozyskiwania, konserwowania zduplikowanych kopii danych przy jednoczesnym zapewnieniu, że dane pozostają zsynchronizowane bez dodatkowego nakładu pracy.

Poniższe scenariusze są idealne do używania przyspieszania zapytań za pośrednictwem skrótów OneLake:

  • Wykonywanie zapytań dotyczących danych w usłudze OneLake o wysokiej wydajności: jeśli masz istniejące obciążenia, które przekazują dane i zarządzają nimi w magazynie (opcjonalnie w innej chmurze lub regionie), a następnie chcesz wykonywać zapytania dotyczące niektórych lub wszystkich danych o wysokiej wydajności.
  • Łączenie danych historycznych ze strumieniami czasu rzeczywistego: jeśli chcesz bezproblemowo połączyć dane docelowe w usłudze OneLake bezpośrednio ze strumieniami czasu rzeczywistego przychodzącymi do usługi Eventhouse bez naruszania szybkości zapytań.
  • Wykorzystanie danych wymiarów zarządzanych przez inne elementy: często duże wartości i małe dane zbiorcze są hostowane na serwerach SQL, cosmos DB, Snowflake lub innych systemach, które mogą być dublowane w usłudze OneLake. Przyspieszone skróty OneLake umożliwiają łatwe wykorzystanie tych danych do sprzężeń i wzbogacania w zapytaniu eventhouse. Ponieważ dane wymiarów są często znacznie mniejsze niż dane aktywności, dodatkowy koszt związany z tym użyciem jest zwykle minimalny.

Zachowanie przyspieszonych zewnętrznych tabel różnicowych

Przyspieszone skróty OneLake zachowują się jak tabele zewnętrzne, z tymi samymi ograniczeniami i możliwościami. W szczególności funkcje, takie jak zmaterializowane zasady wyświetlania i aktualizacji, nie są obsługiwane.

Monitorowanie zachowania przyspieszania

Początkowy proces przyspieszania zapytań zależy od rozmiaru tabeli zewnętrznej. Aby monitorować postęp i ustawienia przyspieszonej tabeli, użyj polecenia .show external table operations query_acceleration statistics w zestawie zapytań KQL.

Ograniczenia

  • Liczba kolumn w tabeli zewnętrznej nie może przekroczyć 900.
  • Wydajność zapytań w przypadku przyspieszonych zewnętrznych tabel różnicowych, które mają partycje, mogą nie być optymalne podczas korzystania z wersji zapoznawczej.
  • Funkcja zakłada, że tabele różnicowe z funkcjami zaawansowanymi statycznymi, na przykład mapowanie kolumn nie zmienia się, partycje nie zmieniają się itd. Aby zmienić funkcje zaawansowane, najpierw wyłącz zasady, a po wprowadzeniu zmiany ponownie włącz zasady.
  • Zmiany schematu w tabeli różnicowej muszą być również zgodne z odpowiednim .alter zewnętrznym schematem tabeli różnicowej, co może spowodować przyspieszenie rozpoczynające się od podstaw, jeśli nastąpiła zmiana schematu powodującego niezgodność.
  • Oczyszczanie oparte na indeksie nie jest obsługiwane w przypadku partycji.
  • Pliki Parquet o skompresowanym rozmiarze większym niż 6 GB nie będą buforowane.

Rozliczenia

Opłaty za przyspieszone dane są naliczane w ramach miernika pamięci podręcznej OneLake Premium, podobnie jak w przypadku natywnych tabel usługi Eventhouse. Możesz kontrolować ilość danych, które są przyspieszane, konfigurując liczbę dni do buforowania. Działanie indeksowania może również liczyć się z użyciem aktualizacji CU. Aby uzyskać więcej informacji, zobacz Rozliczenia magazynu.

Opłaty związane z przyspieszaniem zapytań będą wyświetlane w aplikacji metryki sieci szkieletowej w obszarze Eventhouse, w którym jest tworzony przyspieszony skrót.