Kompleksowe scenariusze nauki o danych: wprowadzenie i architektura
Ten zestaw samouczków przedstawia przykładowy scenariusz kompleksowej nauki o danych w usłudze Fabric. Każdy krok można zaimplementować od pozyskiwania, czyszczenia i przygotowywania danych do trenowania modeli uczenia maszynowego i generowania szczegółowych informacji, a następnie korzystać z tych szczegółowych informacji przy użyciu narzędzi do wizualizacji, takich jak usługa Power BI.
Jeśli dopiero zaczynasz korzystać z usługi Microsoft Fabric, zobacz Co to jest usługa Microsoft Fabric?.
Wprowadzenie
Cykl życia projektu nauki o danych zwykle obejmuje (często iteracyjne) następujące kroki:
- Poznawanie firmy
- Pozyskiwanie danych
- Eksploracja, czyszczenie, przygotowywanie i wizualizacja danych
- Trenowanie modelu i śledzenie eksperymentów
- Ocenianie modelu i generowanie szczegółowych informacji.
Cele i kryteria sukcesu każdego etapu zależą od współpracy, udostępniania danych i dokumentacji. Środowisko nauki o danych sieci Szkieletowej składa się z wielu natywnych funkcji, które umożliwiają współpracę, pozyskiwanie danych, udostępnianie i zużycie w bezproblemowy sposób.
W tych samouczkach pełnisz rolę analityka danych, który otrzymał zadanie eksplorowania, czyszczenia i przekształcania zestawu danych zawierającego stan zmian 10 000 klientów w banku. Następnie utworzysz model uczenia maszynowego, aby przewidzieć, którzy klienci bankowi prawdopodobnie odejdą.
Dowiesz się, jak wykonywać następujące działania:
- Notesy sieci szkieletowej służą do obsługi scenariuszy nauki o danych.
- Pozyskiwanie danych do usługi Fabric Lakehouse przy użyciu platformy Apache Spark.
- Załaduj istniejące dane z tabel różnicowych usługi Lakehouse.
- Czyszczenie i przekształcanie danych przy użyciu narzędzi opartych na platformie Apache Spark i języku Python.
- Tworzenie eksperymentów i przebiegów w celu trenowania różnych modeli uczenia maszynowego.
- Rejestrowanie i śledzenie wytrenowanych modeli przy użyciu platformy MLflow i interfejsu użytkownika sieci szkieletowej.
- Uruchamianie oceniania na dużą skalę i zapisywanie przewidywań i wyników wnioskowania w lakehouse.
- Wizualizowanie przewidywań w usłudze Power BI przy użyciu usługi DirectLake.
Architektura
W tej serii samouczków prezentujemy uproszczony scenariusz nauki o danych, który obejmuje:
- Pozyskiwanie danych z zewnętrznego źródła danych.
- Eksplorowanie i czyszczenie danych.
- Trenowanie i rejestrowanie modeli uczenia maszynowego.
- Przeprowadź ocenianie wsadowe i zapisz przewidywania.
- Wizualizowanie wyników przewidywania w usłudze Power BI.
Różne składniki scenariusza nauki o danych
Źródła danych — sieć szkieletowa ułatwia i szybkie łączenie się z usługami Azure Data Services, innymi platformami w chmurze i lokalnymi źródłami danych w celu pozyskiwania danych z. Za pomocą notesów sieci szkieletowej można pozyskiwać dane z wbudowanych źródeł danych typu Lakehouse, Data Warehouse, semantycznych oraz różnych źródeł danych obsługiwanych przez platformę Apache Spark i Python. Ta seria samouczków koncentruje się na pozyskiwaniu i ładowaniu danych z magazynu lakehouse.
Eksplorowanie, czyszczenie i przygotowywanie — środowisko nauki o danych w usłudze Fabric obsługuje czyszczenie danych, przekształcanie, eksplorację i cechowanie przy użyciu wbudowanych środowisk na platformie Spark, a także narzędzi opartych na języku Python, takich jak Data Wrangler i Biblioteka SemPy. W tym samouczku przedstawiono eksplorację danych przy użyciu biblioteki języka Python oraz czyszczenia i przygotowywania danych przy użyciu platformy seaborn
Apache Spark.
Modele i eksperymenty — sieć szkieletowa umożliwia trenowanie, ocenianie i ocenianie modeli uczenia maszynowego przy użyciu wbudowanych elementów eksperymentów i modeli z bezproblemową integracją z platformą MLflow na potrzeby śledzenia eksperymentów i rejestracji/wdrażania modelu. Sieć szkieletowa udostępnia również funkcje przewidywania modelu na dużą skalę (PREDICT) w celu uzyskania i udostępniania szczegółowych informacji biznesowych.
Magazyn — sieć szkieletowa standandalizuje usługę Delta Lake, co oznacza, że wszystkie aparaty sieci Szkieletowej mogą wchodzić w interakcje z tym samym zestawem danych przechowywanym w usłudze Lakehouse. Ta warstwa magazynu umożliwia przechowywanie zarówno danych ze strukturą, jak i bez struktury, które obsługują zarówno magazyn oparty na plikach, jak i format tabelaryczny. Dostęp do zestawów danych i plików przechowywanych można łatwo uzyskać za pośrednictwem wszystkich elementów środowiska usługi Fabric, takich jak notesy i potoki.
Uwidaczniaj analizę i szczegółowe informacje — dane z usługi Lakehouse mogą być używane przez usługę Power BI, wiodące w branży narzędzie do analizy biznesowej na potrzeby raportowania i wizualizacji. Dane utrwalane w usłudze Lakehouse można również wizualizować w notesach przy użyciu natywnych bibliotek wizualizacji platformy Spark lub języka Python, takich jak matplotlib
, , seaborn
plotly
i innych. Dane można również wizualizować przy użyciu biblioteki SemPy, która obsługuje wbudowane, szczegółowe wizualizacje dla semantycznego modelu danych, zależności i ich naruszeń oraz przypadków użycia klasyfikacji i regresji.