Udostępnij za pośrednictwem


Co to jest nauka o danych w usłudze Microsoft Fabric?

Usługa Microsoft Fabric oferuje środowisko nauki o danych, aby umożliwić użytkownikom wykonywanie kompletnych przepływów pracy nauki o danych na potrzeby wzbogacania danych i szczegółowych informacji biznesowych. Możesz ukończyć szeroką gamę działań w całym procesie nauki o danych, od eksploracji danych, przygotowywania i czyszczenia po eksperymenty, modelowanie, ocenianie modeli i obsługę analiz predykcyjnych do raportów analizy biznesowej.

Użytkownicy usługi Microsoft Fabric mogą uzyskać dostęp do strony głównej nauki o danych. Z tego miejsca mogą odnajdywać różne odpowiednie zasoby i uzyskiwać do nich dostęp. Mogą na przykład tworzyć eksperymenty, modele i notesy uczenia maszynowego. Mogą również importować istniejące notesy na stronie głównej nauki o danych.

Zrzut ekranu przedstawiający stronę główną Nauki o danych.

Możesz wiedzieć, jak działa typowy proces nauki o danych. Jako dobrze znany proces, jest stosowany w większości projektów uczenia maszynowego.

Na wysokim poziomie proces obejmuje następujące kroki:

  • Formułowanie problemu i ideacja
  • Odnajdywanie i wstępne przetwarzanie danych
  • Eksperymentowanie i modelowanie
  • Wzbogacanie i operacjonalizacja
  • Uzyskiwanie szczegółowych informacji

Diagram procesu nauki o danych.

W tym artykule opisano możliwości nauki o danych w usłudze Microsoft Fabric z perspektywy procesu nauki o danych. Dla każdego kroku procesu nauki o danych ten artykuł zawiera podsumowanie możliwości usługi Microsoft Fabric, które mogą pomóc.

Formułowanie problemu i ideacja

Użytkownicy nauki o danych w usłudze Microsoft Fabric pracują na tej samej platformie co użytkownicy biznesowi i analitycy. Udostępnianie danych i współpraca stają się w rezultacie bardziej bezproblemowe w różnych rolach. Analitycy mogą łatwo udostępniać raporty i zestawy danych usługi Power BI praktykom nauki o danych. Łatwość współpracy między rolami w usłudze Microsoft Fabric sprawia, że przekazywanie zadań na etapie formułowania problemu jest znacznie łatwiejsze.

Odnajdywanie i wstępne przetwarzanie danych

Użytkownicy usługi Microsoft Fabric mogą wchodzić w interakcje z danymi w usłudze OneLake przy użyciu elementu Lakehouse. Usługa Lakehouse łatwo dołącza się do notesu, aby przeglądać dane i wchodzić z nimi w interakcje.

Użytkownicy mogą łatwo odczytywać dane z usługi Lakehouse bezpośrednio do ramki danych Pandas. W przypadku eksploracji umożliwia to bezproblemowe odczyty danych z usługi OneLake.

Zaawansowany zestaw narzędzi jest dostępny dla potoków pozyskiwania danych i orkiestracji danych przy użyciu potoków integracji danych — natywnie zintegrowanej części usługi Microsoft Fabric. Łatwe w tworzeniu potoki danych mogą uzyskiwać dostęp do danych i przekształcać je w format, z którego może korzystać uczenie maszynowe.

Eksploracja danych

Ważną częścią procesu uczenia maszynowego jest zrozumienie danych za pośrednictwem eksploracji i wizualizacji.

W zależności od lokalizacji przechowywania danych usługa Microsoft Fabric oferuje zestaw różnych narzędzi do eksplorowania i przygotowywania danych do analizy i uczenia maszynowego. Notesy stają się jednym z najszybszych sposobów rozpoczęcia eksploracji danych.

Apache Spark i Python na potrzeby przygotowywania danych

Usługa Microsoft Fabric oferuje możliwości przekształcania, przygotowywania i eksplorowania danych na dużą skalę. Dzięki platformie Spark użytkownicy mogą korzystać z narzędzi PySpark/Python, Scala i SparkR/SparklyR na potrzeby przetwarzania wstępnego danych na dużą skalę. Zaawansowane biblioteki wizualizacji typu open source mogą ulepszyć środowisko eksploracji danych, aby lepiej zrozumieć dane.

Wrangler danych na potrzeby bezproblemowego czyszczenia danych

Środowisko notesu usługi Microsoft Fabric dodało funkcję umożliwiającą korzystanie z rozwiązania Data Wrangler, narzędzia kodu, które przygotowuje dane i generuje kod w języku Python. To środowisko ułatwia przyspieszenie żmudnych i przyziemnych zadań — na przykład czyszczenia danych i tworzenia powtarzalności i automatyzacji za pomocą wygenerowanego kodu. Dowiedz się więcej o usłudze Data Wrangler w sekcji Data Wrangler tego dokumentu.

Eksperymentowanie i modelowanie uczenia maszynowego

Dzięki narzędziom, takich jak PySpark/Python, SparklyR/R, notesy mogą obsługiwać trenowanie modelu uczenia maszynowego.

Algorytmy i biblioteki uczenia maszynowego mogą pomóc w trenowaniu modeli uczenia maszynowego. Narzędzia do zarządzania bibliotekami mogą instalować te biblioteki i algorytmy. W związku z tym użytkownicy mogą korzystać z wielu popularnych bibliotek uczenia maszynowego w celu ukończenia szkolenia modelu uczenia maszynowego w usłudze Microsoft Fabric.

Ponadto popularne biblioteki, takie jak Scikit Learn, mogą również tworzyć modele.

Eksperymenty i przebiegi platformy MLflow mogą śledzić trenowanie modelu uczenia maszynowego. Usługa Microsoft Fabric oferuje wbudowane środowisko MLflow, w którym użytkownicy mogą wchodzić w interakcje, rejestrować eksperymenty i modele. Dowiedz się więcej o tym, jak używać platformy MLflow do śledzenia eksperymentów i zarządzania modelami w usłudze Microsoft Fabric.

SynapseML

Biblioteka open source SynapseML (wcześniej znana jako MMLSpark), której właścicielem jest Microsoft i którą firma ta utrzymuje, upraszcza tworzenie wysoce skalowalnych pipeline'ów uczenia maszynowego. Jako ekosystem narzędzi rozszerza platformę Apache Spark w kilku nowych kierunkach. Usługa SynapseML łączy kilka istniejących struktur uczenia maszynowego i nowe algorytmy firmy Microsoft w jeden skalowalny interfejs API. Biblioteka synapseML typu open source zawiera bogaty ekosystem narzędzi uczenia maszynowego do tworzenia modeli predykcyjnych, a także wykorzystanie wstępnie wytrenowanych modeli sztucznej inteligencji z usług Azure AI. Dowiedz się więcej o SynapseML.

Wzbogacanie i operacjonalizacja

Notebooki mogą obsługiwać wsadowe ocenianie modeli uczenia maszynowego za pomocą bibliotek open source do przewidywań lub skalowalnej uniwersalnej funkcjonalności Spark Predict platformy Microsoft Fabric, która obsługuje modele MLflow zarejestrowane w usłudze Microsoft Fabric.

Uzyskiwanie szczegółowych informacji

W usłudze Microsoft Fabric wartości przewidywane można łatwo zapisywać w usłudze OneLake i bezproblemowo korzystać z raportów usługi Power BI przy użyciu trybu Direct Lake usługi Power BI. Ułatwia to praktykom nauki o danych dzielenie się wynikami z pracy z uczestnikami projektu, a także upraszcza operacjonalizacja.

Notesy zawierające ocenianie wsadowe mogą być uruchamiane przy użyciu funkcji planowania notesu. Ocenianie wsadowe można również zaplanować jako część procesów pipeline’u danych lub zadań w ramach platformy Spark. Usługa Power BI automatycznie pobiera najnowsze przewidywania bez konieczności ładowania lub odświeżania danych dzięki trybowi Direct Lake w usłudze Microsoft Fabric.

Analitycy danych i analitycy biznesowi poświęcają dużo czasu, próbując zrozumieć, oczyścić i przekształcić dane, zanim będą mogli rozpocząć dowolną znaczącą analizę. Analitycy biznesowi zwykle pracują z modelami semantycznymi i kodują swoją wiedzę na temat domeny i logikę biznesową do miar usługi Power BI. Z drugiej strony analitycy danych mogą pracować z tymi samymi danymi, ale zazwyczaj w innym środowisku kodu lub języku.

Link semantyczny umożliwia analitykom danych nawiązanie połączenia między modelami semantycznymi usługi Power BI i środowiskiem nauki o danych usługi Synapse w usłudze Microsoft Fabric za pośrednictwem biblioteki języka Python SemPy. Rozwiązanie SemPy upraszcza analizę danych, przechwytując i wykorzystując semantykę danych, gdy użytkownicy wykonują różne przekształcenia w modelach semantycznych. Korzystając z linku semantycznego, analitycy danych mogą wykonywać następujące czynności:

  • unikanie konieczności ponownego implementowania logiki biznesowej i wiedzy o domenie w kodzie
  • Łatwy dostęp do miar Power BI i ich wykorzystanie w kodzie.
  • wykorzystywanie semantyki do tworzenia nowych doświadczeń, takich jak funkcje semantyczne
  • eksplorowanie i weryfikowanie zależności funkcjonalnych i relacji między danymi

Korzystając z rozwiązania SemPy, organizacje mogą oczekiwać:

  • większa produktywność i szybsza współpraca między zespołami, które działają na tych samych zestawach danych
  • zwiększona współpraca krzyżowa między zespołami analizy biznesowej i sztucznej inteligencji
  • zmniejszenie niejednoznaczności i łatwiejsza krzywa uczenia się podczas wdrażania się do nowego modelu lub zestawu danych

Aby uzyskać więcej informacji na temat linku semantycznego, zobacz Co to jest link semantyczny?.