Wybieranie technologii analizy danych i raportowania na platformie Azure
Celem większości rozwiązań typu big data jest udostępnienie szczegółowych informacji na temat danych przy użyciu analizy i raportowania. Może to obejmować wstępnie skonfigurowane raporty i wizualizacje lub interaktywną eksplorację danych.
Jakie są opcje wyboru technologii analizy danych?
Istnieje kilka opcji analizy, wizualizacji i raportowania na platformie Azure, w zależności od potrzeb:
- Power BI
- Notesy programu Jupyter
- Notesy Zeppelin
- Notesy Jupyter w programie Visual Studio Code (VS Code)
Power BI
Usługa Power BI to zestaw narzędzi do analizy biznesowej. Może ona łączyć się z setkami źródeł danych i może służyć do analizy ad hoc. Zobacz tę listę aktualnie dostępnych źródeł danych. Użyj usługi Power BI Embedded , aby zintegrować usługę Power BI we własnych aplikacjach bez konieczności posiadania dodatkowych licencji.
Organizacje mogą używać usługi Power BI do tworzenia raportów i publikowania ich w organizacji. Każdy może tworzyć spersonalizowane pulpity nawigacyjne z wbudowanymi zabezpieczeniami i ładem. Usługa Power BI używa identyfikatora Entra firmy Microsoft do uwierzytelniania użytkowników logujących się do usługa Power BI i używa poświadczeń logowania usługi Power BI za każdym razem, gdy użytkownik próbuje uzyskać dostęp do zasobów wymagających uwierzytelniania.
Notesy programu Jupyter
Notesy Jupyter Notebook udostępniają powłokę opartą na przeglądarce, która umożliwia analitykom danych tworzenie plików notesów zawierających kod Python, Scala lub R oraz tekst markdown, dzięki czemu jest to skuteczny sposób współpracy poprzez udostępnianie i dokumentowanie kodu oraz wyniki w jednym dokumencie.
Większość odmian klastrów usługi HDInsight, takich jak Spark lub Hadoop, jest wstępnie skonfigurowana z notesami Jupyter do interakcji z danymi i przesyłania zadań do przetwarzania. W zależności od typu używanego klastra usługi HDInsight zostanie udostępniony co najmniej jeden jądro do interpretowania i uruchamiania kodu. Na przykład klastry Spark w usłudze HDInsight udostępniają jądra związane z platformą Spark, które można wybrać, aby wykonać kod języka Python lub Scala przy użyciu aparatu Spark.
Notesy Jupyter zapewniają doskonałe środowisko do analizowania, wizualizowania i przetwarzania danych przed utworzeniem bardziej zaawansowanych wizualizacji za pomocą narzędzia do analizy biznesowej/raportowania, takiego jak usługa Power BI.
Notesy Zeppelin
Notesy Zeppelin to kolejna opcja powłoki opartej na przeglądarce, podobnie jak w przypadku programu Jupyter w funkcji. Niektóre klastry usługi HDInsight są wstępnie skonfigurowane za pomocą notesów Zeppelin. Jeśli jednak używasz klastra zapytań interakcyjnych usługi HDInsight (Hive LLAP), zeppelin jest obecnie jedynym wyborem notesu, którego można użyć do uruchamiania interakcyjnych zapytań Hive. Ponadto, jeśli używasz klastra usługi HDInsight przyłączonego do domeny, notesy Zeppelin są jedynym typem, który umożliwia przypisanie różnych identyfikatorów logowania użytkownika w celu kontrolowania dostępu do notesów i bazowych tabel programu Hive.
Notesy Jupyter w programie VS Code
VS Code to bezpłatna platforma edytora kodu i programowania, której można używać lokalnie lub połączonych ze zdalnymi obliczeniami. W połączeniu z rozszerzeniem Jupyter oferuje pełne środowisko do tworzenia aplikacji Jupyter, które można ulepszyć przy użyciu dodatkowych rozszerzeń języka. Jeśli potrzebujesz najlepszego w swojej klasie, bezpłatnego środowiska Jupyter z możliwością korzystania z wybranej mocy obliczeniowej, jest to świetna opcja. Za pomocą programu VS Code można opracowywać i uruchamiać notesy dla zdalnych i kontenerów. Aby ułatwić przejście z usługi Azure Notebooks, udostępniliśmy obraz kontenera, aby mógł być również używany z programem VS Code.
Jupyter (dawniej IPython Notebook) to projekt typu open source, który umożliwia łatwe łączenie tekstu markdown i wykonywalnego kodu źródłowego języka Python na jednej kanwie nazywanej notesem. Program Visual Studio Code obsługuje natywną pracę z notesami Jupyter Notebook oraz za pośrednictwem plików kodu języka Python.
Kluczowe kryteria wyboru
Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:
Czy musisz nawiązać połączenie z wieloma źródłami danych, zapewniając scentralizowane miejsce do tworzenia raportów dla danych rozmieszczonych w całej domenie? Jeśli tak, wybierz opcję, która umożliwia nawiązanie połączenia z 100 źródłami danych.
Czy chcesz osadzić dynamiczne wizualizacje w zewnętrznej witrynie internetowej lub aplikacji? Jeśli tak, wybierz opcję, która zapewnia możliwości osadzania.
Czy chcesz zaprojektować wizualizacje i raporty w trybie offline? Jeśli tak, wybierz opcję z funkcjami offline.
Czy potrzebujesz dużej mocy obliczeniowej, aby wytrenować duże lub złożone modele sztucznej inteligencji lub pracować z bardzo dużymi zestawami danych? Jeśli tak, wybierz opcję, która może łączyć się z klastrem danych big data.
Macierz możliwości
W poniższych tabelach podsumowano kluczowe różnice w możliwościach.
Ogólne możliwości
Możliwość | Power BI | Notesy programu Jupyter | Notesy Zeppelin | Notesy Jupyter w programie VS Code |
---|---|---|---|---|
Nawiązywanie połączenia z klastrem danych big data na potrzeby zaawansowanego przetwarzania | Tak | Tak | Tak | Nie. |
Usługa zarządzana | Tak | Tak 1 | Tak 1 | Tak |
Nawiązywanie połączenia z 100 źródłami danych | Tak | Nie. | Nie. | Nie. |
Możliwości w trybie offline | Tak 2 | Nie | Nie. | Nie. |
Funkcje osadzania | Tak | Nie. | Nie. | Nie. |
Automatyczne odświeżanie danych | Tak | Nie. | Nie. | Nie. |
Dostęp do wielu pakietów open source | Nie. | Tak 3 | Tak 3 | Tak 4 |
Opcje przekształcania/czyszczenia danych | Power Query, R | 40 języków, w tym Python, R, Julia i Scala | 20+ interpretery, w tym Python, JDBC i R | Python, F#, R |
Cennik | Bezpłatna wersja programu Power BI Desktop (tworzenie), zobacz Cennik opcji hostingu | Bezpłatna | Bezpłatna | Bezpłatna |
Współpraca z wieloma użytkownikami | Tak | Tak (za pośrednictwem udostępniania lub korzystania z serwera wieloużytkownika, takiego jak JupyterHub) | Tak | Tak (za pośrednictwem udostępniania) |
[1] W przypadku użycia w ramach zarządzanego klastra usługi HDInsight.
[2] Korzystanie z programu Power BI Desktop.
[2] Repozytorium Maven można przeszukiwać pod kątem pakietów współtwonych przez społeczność.
[3] Pakiety języka Python można instalować przy użyciu narzędzia lub Conda. Pakiety języka R można zainstalować z poziomu usługi CRAN lub GitHub. Pakiety w języku F# można instalować za pośrednictwem nuget.org przy użyciu menedżera zależności Pakietu Paket.
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główny autor:
- Zoiner Tejada | Dyrektor generalny i architekt
Następne kroki
- Wprowadzenie do notesów Jupyter dla języka Python
- Notesy
- Uruchamianie notesów usługi Azure Databricks za pomocą usługi Azure Data Factory
- Uruchamianie notesów Jupyter w obszarze roboczym
- Co to jest usługa Power BI?