Was ist Data Science in Microsoft Fabric?
Microsoft Fabric bietet Data Science-Erfahrungen, mit denen Benutzer End-to-End-Data Science-Workflows zur Datenanreicherung und zum Gewinnen geschäftlicher Erkenntnisse durchführen können. Sie können eine breite Palette von Aktivitäten im gesamten Data-Science-Prozess durchführen, von der Datenerkundung, Vorbereitung und Reinigung bis hin zu Experimentierung, Modellierung, Modellbewertung und Bereitstellung von prädiktiven Erkenntnissen für BI-Berichte.
Microsoft Fabric-Benutzer können auf eine Data Science-Homepage zugreifen. Von dort aus können sie verschiedene relevante Ressourcen entdecken und darauf zugreifen. Sie können z. B. Machine Learning Experimente, Modelle und Notizbücher erstellen. Sie können auch vorhandene Notizbücher auf der Data Science-Startseite importieren.
Möglicherweise wissen Sie, wie ein typischer Data Science-Prozess funktioniert. Da es sich um einen bekannten Prozess handelt, folgen ihm die meisten Projekte zum maschinellen Lernen.
Auf hoher Ebene umfasst der Prozess die folgenden Schritte:
- Problemformulierung und Ideenfindung
- Datenentdeckung und Vorverarbeitung
- Experimentieren und Modellieren
- Bereichern und Operationalisieren
- Gewinnen Sie Einblicke
In diesem Artikel werden die Microsoft Fabric Data-Science-Funktionen aus der Perspektive eines Data-Science-Prozesses beschrieben. Für jeden Schritt im Data Science-Prozess fasst dieser Artikel die Microsoft Fabric-Funktionen zusammen, die Ihnen helfen können.
Problemformulierung und Ideenfindung
Data Science-Benutzer in Microsoft Fabric arbeiten auf derselben Plattform wie Geschäftsbenutzer und Analysten. Die Datenfreigabe und Zusammenarbeit zwischen verschiedenen Rollen werden dadurch nahtloser. Analysten können Power BI-Berichte und -Datasets ganz einfach mit Data Science-Experten teilen. Die einfache Zusammenarbeit zwischen verschiedenen Rollen in Microsoft Fabric erleichtert Übergaben während der Problemformulierungsphase erheblich.
Datenerkennung und -vorverarbeitung
Microsoft Fabric-Benutzer können mithilfe des Lakehouse-Elements mit Daten in OneLake interagieren. Lakehouse lässt sich einfach an ein Notebook anschließen, um Daten zu durchsuchen und mit ihnen zu interagieren.
Benutzer können Daten aus einem Lakehouse mühelos direkt in einen Pandas-DataFrame lesen. Dies ermöglich bei der Untersuchung nahtlose Datenlesevorgänge aus OneLake.
Für Datenerfassungs- und Datenorchestrierungspipelines mit Datenintegrationspipelines ist eine Reihe leistungsstarker Tools verfügbar, die nativ in Microsoft Fabric integriert sind. Datenpipelines, die einfach zu erstellen sind, können auf die Daten zugreifen und sie in ein Format umwandeln, das vom maschinellen Lernen verarbeitet werden kann.
Datenuntersuchung
Ein wichtiger Bestandteil des maschinellen Lernprozesses ist das Verständnis von Daten durch Exploration und Visualisierung.
Je nach Datenspeicherort bietet Microsoft Fabric eine Reihe verschiedener Tools zum Untersuchen und Vorbereiten der Daten für Analysen und maschinelles Lernen. Notizbücher werden zu einer der schnellsten Möglichkeiten, mit der Datensuche zu beginnen.
Apache Spark und Python zur Datenvorbereitung
Microsoft Fabric bietet Funktionen zum Transformieren, Vorbereiten und Untersuchen Ihrer Daten im großen Maßstab. Mit Spark können Benutzer PySpark/Python, Scala und SparkR/SparklyR-Tools für die Datenvorverarbeitung im großen Maßstab nutzen. Leistungsstarke Open-Source-Visualisierungsbibliotheken können die Datenerkundung verbessern, um die Daten besser zu verstehen.
Nahtlose Datenbereinigung mit Data Wrangler
Die Microsoft Fabric-Notizbuchoberfläche hat ein Feature zur Verwendung von Data Wrangler hinzugefügt, einem Codetool, das Daten vorbereitet und Python-Code generiert. Diese Erfahrung erleichtert es, mühsame und mundane Aufgaben zu beschleunigen – z. B. Datenbereinigungen und Erstellen von Wiederholbarkeit und Automatisierung durch generierten Code. Erfahren Sie mehr über Data Wrangler im Abschnitt "Data Wrangler" dieses Dokuments.
Experimentieren und ML-Modellierung
Mit Tools wie PySpark/Python und SparklyR/R können Notizbücher das Training von maschinellen Lernmodellen verarbeiten.
ML-Algorithmen und Bibliotheken können dabei helfen, Machine Learning-Modelle zu trainieren. Bibliotheksverwaltungstools können diese Bibliotheken und Algorithmen installieren. Benutzer haben daher die Möglichkeit, eine vielzahl beliebter Machine Learning-Bibliotheken zu nutzen, um ihre ML-Modellschulung in Microsoft Fabric abzuschließen.
Darüber hinaus können beliebte Bibliotheken wie Scikit Learn auch Modelle entwickeln.
MLflow-Experimente und -Ausführungen können das Training von ML-Modellen (maschinelles Lernen) nachverfolgen. Microsoft Fabric bietet eine integrierte MLflow-Erfahrung, mit der Benutzer interagieren können, um Experimente und Modelle zu protokollieren. Erfahren Sie mehr über die Verwendung von MLflow zum Nachverfolgen von Experimenten und zum Verwalten von Modellen in Microsoft Fabric.
SynapseML
Die Open-Source-Bibliothek SynapseML (früher als MMLSpark bezeichnet), die Microsoft besitzt und verwaltet, vereinfacht die Erstellung von massiven skalierbaren Machine Learning-Pipelines. Als Werkzeugökosystem erweitert es das Apache Spark Framework in verschiedene neue Richtungen. SynapseML vereint mehrere vorhandene Machine Learning Frameworks und neue Microsoft-Algorithmen in einer einzigen, skalierbaren API. Die Open-Source SynapseML-Bibliothek umfasst ein umfangreiches Ökosystem von ML-Tools für die Entwicklung von Prädiktiven Modellen sowie die Nutzung von vorab trainierten KI-Modellen aus Azure AI-Diensten. Erfahren Sie mehr über SynapseML.
Bereichern und Operationalisieren
Notebooks können die Batchbewertung von Machine Learning-Modellen mit Open-Source-Bibliotheken für die Vorhersage oder die skalierbare universelle Spark Predict-Funktion von Microsoft Fabric verarbeiten, die mit MLflow gepackte Modelle in der Microsoft Fabric-Modellregistrierung unterstützt.
Gewinnen Sie Einblicke
In Microsoft Fabric können vorhergesagte Werte mühelos in OneLake geschrieben und mithilfe des Direct Lake-Modus von Power BI nahtlos in Power BI-Berichten genutzt werden. Dies erleichtert Datenwissenschaftlern, Ergebnisse aus ihrer Arbeit mit Stakeholdern zu teilen, und vereinfacht auch die Operationalisierung.
Notebooks, die eine Batchbewertung enthalten, können mit den Notebookplanungsfunktionen für die Ausführung geplant werden. Die Batchbewertung kann auch als Teil von Datenpipelineaktivitäten oder Spark-Aufträgen geplant werden. Power BI erhält automatisch die neuesten Vorhersagen, ohne dass die Daten geladen oder aktualisiert werden müssen, dank des Direct Lake-Modus in Microsoft Fabric.
Datenuntersuchung mit Semantic Link
Data Scientists und Business Analysts verbringen viel Zeit damit, Daten zu verstehen, zu bereinigen und zu transformieren, bevor sie mit einer sinnvollen Analyse beginnen können. Business-Analysten arbeiten in der Regel mit semantischen Modellen und kodieren ihr Domänenwissen und ihre Geschäftslogik in Power BI-Kennzahlen. Andererseits können Datenwissenschaftler mit denselben Daten arbeiten, aber in der Regel in einer anderen Codeumgebung oder Sprache.
Mit Semantic Link können wissenschaftliche Fachkräfte für Daten eine Verbindung zwischen Power BI-Semantikmodellen und der Synapse Data Science-Erfahrung in Microsoft Fabric über die SemPy Python-Bibliothek herstellen. SemPy vereinfacht die Datenanalyse, indem Datensemantik erfasst und genutzt wird, da Benutzer verschiedene Transformationen für die semantischen Modelle durchführen. Mithilfe der semantischen Verknüpfung können Datenwissenschaftler:
- vermeiden Sie, dass Geschäftslogik und Domänenwissen in ihrem Code neu implementiert werden müssen
- Einfacher Zugriff auf Power BI-Measures und mühelose Verwendung der Measures im Code
- Verwenden von Semantik zur Unterstützung neuer Erfahrungen, z. B. semantische Funktionen
- Untersuchen und Überprüfen funktionaler Abhängigkeiten und Beziehungen zwischen Daten
Durch die Verwendung von SemPy können Organisationen folgendes erwarten:
- Höhere Produktivität und schnellere Zusammenarbeit in Teams, die mit denselben Datasets arbeiten
- Erhöhte bereichsübergreifende Zusammenarbeit zwischen Business Intelligence- und KI-Teams
- Reduzierte Mehrdeutigkeit und eine einfachere Lernkurve beim Onboarding in ein neues Modell oder Dataset
Weitere Informationen zur semantischen Verknüpfung finden Sie unter Was ist semantischer Link?.
Verwandte Inhalte
- Informationen zu den ersten Schritten mit End-to-End-Data Science-Beispielen finden Sie in den Data Science-Tutorials.
- Weitere Informationen zur Datenvorbereitung und -reinigung mit Data Wrangler finden Sie unter Data Wrangler
- Weitere Informationen zum Nachverfolgen von Experimenten finden Sie unter Machine Learning Experiment
- Weitere Informationen zum Verwalten von Modellen finden Sie unter Machine Learning-Modell
- Weitere Informationen zur Batchbewertung mit Predict finden Sie unter Bewertung von Modellen mit PREDICT.
- Bereitstellen von Vorhersagen aus Lakehouse in Power BI mit dem Direct Lake-Modus