Udostępnij za pośrednictwem


Próbkowanie liniowe o wysokiej gęstości w usłudze Power BI

Algorytm próbkowania w usłudze Power BI ulepsza wizualizacje, które próbkuje dane o wysokiej gęstości. Możesz na przykład utworzyć wykres liniowy na podstawie wyników sprzedaży sklepów detalicznych, w każdym sklepie z ponad 10 000 przychodów sprzedaży każdego roku. Wykres liniowy takich informacji o sprzedaży próbkuje dane z danych dla każdego magazynu i tworzy wykres liniowy z wieloma seriami, który w ten sposób reprezentuje dane bazowe. Pamiętaj, aby wybrać znaczącą reprezentację tych danych, aby zilustrować różnice sprzedaży w czasie. Ta praktyka jest powszechna w wizualizowania danych o wysokiej gęstości. Szczegóły próbkowania danych o wysokiej gęstości opisano w tym artykule.

Screenshot of line charts, showing the high-density sampling data.

Uwaga

Algorytm próbkowania o wysokiej gęstości opisany w tym artykule jest dostępny zarówno w programie Power BI Desktop, jak i w usługa Power BI.

Jak działa próbkowanie liniowe o wysokiej gęstości

Wcześniej usługa Power BI wybrała kolekcję przykładowych punktów danych w pełnym zakresie danych bazowych w sposób deterministyczny. Na przykład w przypadku danych o wysokiej gęstości w wizualizacji obejmującej jeden rok kalendarzowy może być wyświetlanych 350 przykładowych punktów danych w wizualizacji, z których każda została wybrana, aby upewnić się, że pełny zakres danych był reprezentowany w wizualizacji. Aby zrozumieć, jak to się stanie, wyobraź sobie wykreślenie ceny akcji w okresie jednego roku i wybranie 365 punktów danych w celu utworzenia wizualizacji wykresu liniowego. Jest to jeden punkt danych dla każdego dnia.

W takiej sytuacji istnieje wiele wartości dla ceny akcji w ciągu każdego dnia. Oczywiście, istnieje dzienny wysoki i niski, ale te mogą wystąpić w dowolnym momencie w ciągu dnia, gdy giełda jest otwarta. W przypadku próbkowania liniowego o wysokiej gęstości, jeśli próbka danych bazowych została pobrana o godzinie 10:30 i 12:00 każdego dnia, otrzymasz reprezentatywną migawkę danych bazowych, taką jak cena o godzinie 10:30 i 12:00. Jednak migawka może nie przechwytywać rzeczywistej wysokiej i niskiej ceny akcji dla tego reprezentatywnego punktu danych tego dnia. W takiej sytuacji i innych próbkowanie jest reprezentatywne dla danych bazowych, ale nie zawsze przechwytuje ważne punkty, co w tym przypadku byłoby dziennym wzrostem cen akcji i upadkami.

Zgodnie z definicją dane o wysokiej gęstości są próbkowane w celu tworzenia wizualizacji odpowiednio szybko reagujących na interakcyjność. Zbyt wiele punktów danych na wizualizacji może go obniżyć i obniżyć widoczność trendów. Sposób próbkowania danych jest tym, co napędza tworzenie algorytmu próbkowania w celu zapewnienia najlepszego środowiska wizualizacji. W programie Power BI Desktop algorytm zapewnia najlepszą kombinację czasu odpowiedzi, reprezentacji i jasnego zachowania ważnych punktów w każdym wycięciem czasu.

Jak działa nowy algorytm próbkowania liniowego

Algorytm próbkowania liniowego o wysokiej gęstości jest dostępny dla wizualizacji wykresu liniowego i wykresu warstwowego z ciągłą osią x.

W przypadku wizualizacji o wysokiej gęstości usługa Power BI inteligentnie dzieli dane na fragmenty o wysokiej rozdzielczości, a następnie wybiera ważne punkty reprezentujące każdy fragment. Ten proces fragmentowania danych o wysokiej rozdzielczości jest dostrojony, aby upewnić się, że wynikowy wykres jest wizualnie nie do odróżnienia od renderowania wszystkich bazowych punktów danych, ale jest szybszy i bardziej interaktywny.

Minimalne i maksymalne wartości wizualizacji liniowych o wysokiej gęstości

W przypadku każdej wizualizacji obowiązują następujące ograniczenia:

  • 3500 to maksymalna liczba punktów danych wyświetlanych na większości wizualizacji, niezależnie od liczby bazowych punktów danych lub serii, zobacz wyjątki na poniższej liście. Jeśli na przykład masz 10 serii z 350 punktami danych, wizualizacja osiągnęła maksymalny ogólny limit punktów danych. Jeśli masz jedną serię, może to mieć do 3500 punktów danych, jeśli algorytm uzna, że najlepsze próbkowanie danych bazowych.

  • Dla każdej wizualizacji istnieje maksymalnie 60 serii . Jeśli masz więcej niż 60 serii, podziel dane i utwórz wiele wizualizacji z 60 lub mniejszą liczbą serii. Dobrym rozwiązaniem jest użycie fragmentatora do pokazywania tylko segmentów danych, ale tylko dla niektórych serii. Jeśli na przykład wyświetlasz wszystkie podkategorie w legendzie, możesz użyć fragmentatora do filtrowania według ogólnej kategorii na tej samej stronie raportu.

Maksymalna liczba limitów danych jest wyższa dla następujących typów wizualizacji, które są wyjątkami od limitu 3500 punktów danych:

  • Maksymalnie 150 000 punktów danych dla wizualizacji języka R.
  • 30 000 punktów danych dla wizualizacji usługi Azure Map.
  • 10 000 punktów danych dla niektórych konfiguracji wykresu punktowego (domyślnie 3500 wykresów punktowych).
  • 3500 dla wszystkich innych wizualizacji przy użyciu próbkowania o wysokiej gęstości. Niektóre inne wizualizacje mogą wizualizować więcej danych, ale nie będą używać próbkowania.

Te parametry zapewniają szybkie renderowanie wizualizacji w programie Power BI Desktop, reagują na interakcję z użytkownikami i nie powodują nadmiernego obciążenia obliczeniowego na komputerze renderujący wizualizację.

Ocena reprezentatywnych punktów danych dla wizualizacji liniowych o wysokiej gęstości

Gdy liczba bazowych punktów danych przekracza maksymalną liczbę punktów danych, które mogą być reprezentowane w wizualizacji, rozpoczyna się proces nazywany kwantowaniem . Łączenie fragmentów danych bazowych w grupach nazywanych pojemnikami , a następnie iteracyjnie uściśli te pojemniki.

Algorytm tworzy jak najwięcej pojemników, aby utworzyć największy stopień szczegółowości dla wizualizacji. W każdym pojemniku algorytm znajduje minimalną i maksymalną wartość danych, aby upewnić się, że ważne i znaczące wartości, takie jak wartości odstające, są przechwytywane i wyświetlane w wizualizacji. Na podstawie wyników kwantowania i późniejszej oceny danych przez usługę Power BI minimalna rozdzielczość osi x dla wizualizacji jest określana w celu zapewnienia maksymalnego stopnia szczegółowości wizualizacji.

Jak wspomniano wcześniej, minimalny stopień szczegółowości dla każdej serii wynosi 350 punktów, a maksymalna wartość to 3500 dla większości wizualizacji. Wyjątki są wymienione w poprzednich akapitach.

Każdy pojemnik jest reprezentowany przez dwa punkty danych, które stają się reprezentatywne punkty danych pojemnika w wizualizacji. Punkty danych są wysoką i niską wartością dla tego pojemnika. Wybierając wysoki i niski, proces kwantowania gwarantuje przechwycenie i renderowanie każdej ważnej wysokiej wartości lub znaczącej niskiej wartości w wizualizacji.

Jeśli brzmi to jak wiele analiz, aby upewnić się, że od czasu do czasu odstający jest przechwytywany i prawidłowo wyświetlany w wizualizacji, jesteś poprawny. Jest to dokładna przyczyna algorytmu i procesu kwantowania.

Etykietki narzędzi i próbkowanie liniowe o wysokiej gęstości

Należy pamiętać, że ten proces kwantowania, który powoduje przechwycenie i wyświetlenie minimalnej i maksymalnej wartości w danym pojemniku, może mieć wpływ na sposób wyświetlania danych etykietek narzędzi po umieszczeniu wskaźnika myszy na punktach danych. Aby wyjaśnić, jak i dlaczego tak się dzieje, wróćmy do naszego przykładu na temat cen akcji.

Załóżmy, że tworzysz wizualizację na podstawie ceny akcji i porównujesz dwie różne akcje, z których obie korzystają z próbkowania o wysokiej gęstości. Dane bazowe dla każdej serii mają wiele punktów danych. Na przykład możesz przechwycić cenę akcji po każdej sekundzie dnia. Algorytm próbkowania liniowego o wysokiej gęstości wykonuje kwantowanie dla każdej serii niezależnie od drugiej.

Teraz powiedzmy, że pierwsze akcje skaczą w górę w cenie 12:02, a następnie szybko wracają 10 sekund później. Jest to ważny punkt danych. W przypadku wystąpienia kwantowania dla tej akcji wartość wysoka o godzinie 12:02 jest reprezentatywnym punktem danych dla tego pojemnika.

Jednak dla drugiej akcji, 12:02 nie był wysoki ani niski w pojemniku, który obejmował ten czas. Być może wysoki i niski dla pojemnika, który obejmuje 12:02, wystąpił trzy minuty później. W takiej sytuacji po utworzeniu wykresu liniowego i umieszczeniu wskaźnika myszy na wartości 12:02 zostanie wyświetlona wartość w etykietce narzędzia dla pierwszej akcji. Jest to spowodowane tym, że skoczył o godzinie 12:02, a ta wartość została wybrana jako wysoki punkt danych tego pojemnika. Jednak w etykietce narzędzia nie będzie widoczna żadna wartość o godzinie 12:02 dla drugiej akcji. To dlatego, że druga akcja nie miała wysokich lub niskich dla pojemnika, które obejmowały 12:02. W związku z tym nie ma danych do pokazania dla drugiej akcji o godzinie 12:02, a tym samym nie są wyświetlane żadne dane etykietki narzędzia.

Taka sytuacja będzie często występować w etykietkach narzędzi. Wysokie i niskie wartości dla określonego pojemnika prawdopodobnie nie pasują idealnie do punktów wartości osi x równomiernie skalowanych, a etykietka narzędzia nie wyświetla wartości.

Jak włączyć próbkowanie liniowe o wysokiej gęstości

Domyślnie algorytm jest włączony. Aby zmienić to ustawienie, przejdź do okienka Formatowanie , na karcie Ogólne i u dołu zobaczysz suwak próbkowania o wysokiej gęstości. Wybierz suwak, aby włączyć lub wyłączyć.

Screenshot of a high-density line sampling, showing pointers to the Formatting pane, General, and High Density Sampling.

Rozważania i ograniczenia

Algorytm próbkowania liniowego o wysokiej gęstości jest ważnym ulepszeniem usługi Power BI, ale istnieje kilka zagadnień, które należy znać podczas pracy z wartościami i danymi o wysokiej gęstości.

  • Ze względu na zwiększoną stopień szczegółowości i proces kwantowania etykietki narzędzi mogą pokazywać wartość tylko wtedy, gdy reprezentatywne dane są wyrównane do kursora. Aby uzyskać więcej informacji, zobacz sekcję Etykietki narzędzi i próbkowanie liniowe o wysokiej gęstości w tym artykule.

  • Gdy rozmiar ogólnego źródła danych jest zbyt duży, algorytm eliminuje serię (elementy legendy), aby uwzględnić maksymalne ograniczenie importu danych.

    • W takiej sytuacji algorytm porządkuje serię legend alfabetycznie, rozpoczynając listę elementów legendy w kolejności alfabetycznej do momentu osiągnięcia maksymalnego rozmiaru importu danych i nie importuje większej liczby serii.
  • Jeśli podstawowy zestaw danych ma więcej niż 60 serii, maksymalna liczba serii, algorytm porządkuje serię alfabetycznie i eliminuje serie poza 60 serii uporządkowanych alfabetycznie.

  • Jeśli wartości w danych nie są typu liczba lub data/godzina, usługa Power BI nie będzie używać algorytmu i powróci do poprzedniego algorytmu próbkowania o wysokiej gęstości.

  • Ustawienie Pokaż elementy bez danych nie jest obsługiwane za pomocą algorytmu.

  • Algorytm nie jest obsługiwany w przypadku korzystania z połączenia na żywo z modelem hostowanym w usługach SQL Server Analysis Services w wersji 2016 lub starszej. Jest ona obsługiwana w modelach hostowanych w usługach Power BI lub Azure Analysis Services.