Wprowadzenie
Rozważmy scenariusz, w którym zaimportowano dane do usługi Power BI z kilku różnych źródeł i podczas sprawdzania danych okazało się, że nie są one przygotowane do analizy. Jaka może być przyczyna nieprzygotowania danych do analizy?
Podczas badania danych wykryto kilka problemów, takich jak:
Kolumna o nazwie Employment status (Status zatrudnienia) zawiera tylko cyfry.
Kilka kolumn zawiera błędy.
Niektóre kolumny zawierają wartości null.
Identyfikator klienta w niektórych kolumnach wygląda tak, jakby został wielokrotnie powtórzony.
Jedna kolumna adresu zawiera połączone informacje o nazwie ulicy, mieście, stanie i kodzie pocztowym.
Rozpoczynasz pracę z danymi, ale za każdym razem, gdy tworzysz wizualizacje w raportach, otrzymujesz złe dane lub nieprawidłowe wyniki, a proste raporty dotyczące łącznych wartości sprzedaży są nieprawidłowe.
Brudne dane mogą być przytłaczające i choć może być sfrustrowane, postanawiasz dostać się do pracy i dowiedzieć się, jak uczynić ten semantyczny model tak nieskazitelnym, jak to możliwe.
Na szczęście usługa Power BI i edytor Power Query oferują zaawansowane środowisko do czyszczenia i przygotowywania danych. Czyste dane zapewniają następujące korzyści:
Miary i kolumny dają dokładniejsze wyniki, gdy wykonują agregacje i obliczenia.
Dane są zorganizowane w tabele, gdzie użytkownicy mogą je znaleźć w intuicyjny sposób.
Duplikaty są usuwane, co upraszcza nawigowanie po danych. Utworzone w ten sposób kolumny będą mogły być używane przez fragmentatory i filtry.
Skomplikowaną kolumnę można podzielić na dwie prostsze kolumny. Wiele kolumn można połączyć w jedną kolumnę w celu zapewnienia czytelności.
Kody i liczby całkowite można zamienić na wartości czytelne dla ludzi.
Ten moduł obejmuje następujące zagadnienia:
Rozwiązywanie niespójności, nieoczekiwanych wartości lub wartości null oraz problemów z jakością danych.
Stosowanie przyjaznych dla użytkownika zamienników wartości.
Profilowanie danych, aby można się było dowiedzieć czegoś więcej o określonej kolumnie przed jej użyciem.
Ocenianie i przekształcanie typów danych w kolumnach.
Stosowanie przekształcania kształtu danych do struktur tabeli.
Łączenie zapytań.
Stosowanie przyjaznych dla użytkownika konwencji nazewnictwa do kolumn i zapytań.
Edytowanie kodu M w edytorze zaawansowanym.