Een gegevensanalyse- en rapportagetechnologie kiezen in Azure
Het doel van de meeste big data-oplossingen is inzicht te bieden in gegevens via analyse en rapportage. Dit kan bestaan uit vooraf geconfigureerde rapporten en visualisaties of interactieve gegevensverkenning.
Wat zijn uw opties bij het kiezen van een technologie voor gegevensanalyse?
Er zijn verschillende opties voor analyse, visualisaties en rapportage in Azure, afhankelijk van uw behoeften:
Power BI
Power BI is een suite met hulpprogramma's voor zakelijke analyses. Het kan verbinding maken met honderden gegevensbronnen en kan worden gebruikt voor ad-hocanalyse. Bekijk deze lijst met de momenteel beschikbare gegevensbronnen. Gebruik Power BI Embedded om Power BI in uw eigen toepassingen te integreren zonder dat hiervoor extra licenties nodig zijn.
Organisaties kunnen Power BI gebruiken om rapporten te produceren en naar de organisatie te publiceren. Iedereen kan gepersonaliseerde dashboards maken, met ingebouwde governance en beveiliging. Power BI maakt gebruik van Microsoft Entra ID om gebruikers te verifiëren die zich aanmelden bij de Power BI-service en de Power BI-aanmeldingsreferenties te gebruiken wanneer een gebruiker toegang probeert te krijgen tot resources waarvoor verificatie is vereist.
Jupyter Notebooks
Jupyter Notebooks bieden een browsergebaseerde shell waarmee gegevenswetenschappers notebookbestanden kunnen maken die Python-, Scala- of R-code en markdown-tekst bevatten, waardoor het een effectieve manier is om samen te werken door code te delen en te documenteren en resultaten in één document te genereren.
De meeste soorten HDInsight-clusters, zoals Spark of Hadoop, zijn vooraf geconfigureerd met Jupyter-notebooks voor interactie met gegevens en het verzenden van taken voor verwerking. Afhankelijk van het type HDInsight-cluster dat u gebruikt, worden een of meer kernels verstrekt voor het interpreteren en uitvoeren van uw code. Spark-clusters in HDInsight bieden bijvoorbeeld Spark-gerelateerde kernels waaruit u kunt kiezen om Python- of Scala-code uit te voeren met behulp van de Spark-engine.
Jupyter-notebooks bieden een geweldige omgeving voor het analyseren, visualiseren en verwerken van uw gegevens voordat u geavanceerdere visualisaties bouwt met een BI-/rapportageprogramma zoals Power BI.
Zeppelin Notebooks
Zeppelin Notebooks zijn een andere optie voor een browsergebaseerde shell, vergelijkbaar met Jupyter in functionaliteit. Sommige HDInsight-clusters zijn vooraf geconfigureerd met Zeppelin-notebooks. Als u echter een HDInsight Interactive Query-cluster (Hive LLAP) gebruikt, is Zeppelin momenteel de enige keuze uit notebooks die u kunt gebruiken om interactieve Hive-query's uit te voeren. Als u een HDInsight-cluster gebruikt dat lid is van een domein, zijn Zeppelin-notebooks ook het enige type waarmee u verschillende gebruikersaanmeldingsgegevens kunt toewijzen om de toegang tot notebooks en de onderliggende Hive-tabellen te beheren.
Jupyter Notebooks in VS Code
VS Code is een gratis code-editor en ontwikkelplatform dat u lokaal kunt gebruiken of verbinding kunt maken met externe berekeningen. In combinatie met de Jupyter-extensie biedt het een volledige omgeving voor Jupyter-ontwikkeling die kan worden uitgebreid met extra taalextensies. Als u een eersteklas, gratis Jupyter-ervaring wilt met de mogelijkheid om uw rekenkracht te gebruiken, is dit een geweldige optie. Met VS Code kunt u notebooks ontwikkelen en uitvoeren op afstand en containers. Om de overgang eenvoudiger te maken vanuit Azure Notebooks, hebben we de containerinstallatiekopieën beschikbaar gemaakt, zodat deze ook met VS Code kan worden gebruikt.
Jupyter (voorheen IPython Notebook) is een opensource-project waarmee u eenvoudig Markdown-tekst en uitvoerbare Python-broncode kunt combineren op één canvas dat een notebook wordt genoemd. Visual Studio Code biedt ondersteuning voor het systeemeigen werken met Jupyter Notebooks en via Python-codebestanden.
Criteria voor sleutelselectie
Om de keuzes te beperken, beantwoordt u eerst deze vragen:
Moet u verbinding maken met talloze gegevensbronnen, zodat u gecentraliseerd rapporten kunt maken voor gegevens verspreid over uw domein? Als dat het zo is, kiest u een optie waarmee u verbinding kunt maken met 100 gegevensbronnen.
Wilt u dynamische visualisaties insluiten in een externe website of toepassing? Als dat het zo is, kiest u een optie die mogelijkheden voor insluiten biedt.
Wilt u uw visualisaties en rapporten offline ontwerpen? Zo ja, kies een optie met offlinemogelijkheden.
Hebt u veel verwerkingskracht nodig om grote of complexe AI-modellen te trainen of te werken met zeer grote gegevenssets? Zo ja, kies een optie die verbinding kan maken met een big data-cluster.
Mogelijkheidsmatrix
De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.
Algemene mogelijkheden
Mogelijkheid | Power BI | Jupyter Notebooks | Zeppelin Notebooks | Jupyter Notebooks in VS Code |
---|---|---|---|---|
Verbinding maken met big data-cluster voor geavanceerde verwerking | Ja | Ja | Ja | Nr. |
Beheerde service | Ja | Ja 1 | Ja 1 | Ja |
Verbinding maken met 100 gegevensbronnen | Ja | No | Nee | Nr. |
Functionaliteiten offline | Ja 2 | Nee | Nee | Nr. |
Mogelijkheden voor insluiten | Ja | No | Nee | Nr. |
Automatisch vernieuwen van gegevens | Ja | No | Nee | Nr. |
Toegang tot talloze opensource-pakketten | Nee | Ja 3 | Ja 3 | Ja 4 |
Opties voor gegevenstransformatie/opschoning | Power Query, R | 40 talen, waaronder Python, R, Julia en Scala | 20+ interpreters, waaronder Python, JDBC en R | Python, F#, R |
Prijzen | Gratis voor Power BI Desktop (ontwerpen), zie Prijzen voor hostingopties | Gratis | Gratis | Gratis |
Samenwerking met meerdere gebruikers | Ja | Ja (via delen of met een server met meerdere gebruikers, zoals JupyterHub) | Ja | Ja (via delen) |
[1] Wanneer deze wordt gebruikt als onderdeel van een beheerd HDInsight-cluster.
[2] Met het gebruik van Power BI Desktop.
[2] U kunt in de Maven-opslagplaats zoeken naar door de community bijgedragen pakketten.
[3] Python-pakketten kunnen worden geïnstalleerd met pip of Conda. R-pakketten kunnen worden geïnstalleerd vanuit CRAN of GitHub. Pakketten in F# kunnen worden geïnstalleerd via nuget.org met behulp van paket-afhankelijkheidsmanager.
Medewerkers
Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.
Hoofdauteur:
- Zoiner Tejada | CEO en architect
Volgende stappen
- Aan de slag met Jupyter-notebooks voor Python
- Notebooks
- Azure Databricks Notebooks uitvoeren met Azure Data Factory
- Jupyter-notebooks uitvoeren in uw werkruimte
- Wat is Power BI?