Omówienie procesu nauki o danych

Ukończone

Typowym sposobem wyodrębniania szczegółowych informacji z danych jest wizualizowanie danych. Za każdym razem, gdy masz złożone zestawy danych, możesz chcieć dokładniej poznać i spróbować znaleźć skomplikowane wzorce w danych.

Jako analityk danych możesz wytrenować modele uczenia maszynowego, aby znaleźć wzorce w danych. Te wzorce umożliwiają generowanie nowych szczegółowych informacji lub przewidywań. Można na przykład przewidzieć oczekiwaną liczbę produktów, które mają zostać sprzedane w nadchodzącym tygodniu.

Chociaż trenowanie modelu jest ważne, nie jest to jedyne zadanie w projekcie nauki o danych. Przed rozpoczęciem typowego procesu nauki o danych zapoznajmy się z typowymi modelami uczenia maszynowego, które można wytrenować.

Eksplorowanie typowych modeli uczenia maszynowego

Celem uczenia maszynowego jest trenowanie modeli, które mogą identyfikować wzorce w dużych ilościach danych. Następnie możesz użyć wzorców, aby tworzyć przewidywania, które zapewniają nowe szczegółowe informacje, na których można podjąć działania.

Możliwości uczenia maszynowego mogą wydawać się nieograniczone, więc zacznijmy od zrozumienia czterech typowych typów modeli uczenia maszynowego:

Diagram of the four common types of machine learning models.

  1. Klasyfikacja: przewidywanie wartości podzielonej na kategorie, na przykład tego, czy klient może zrezygnować.
  2. Regresja: przewidywanie wartości liczbowej, takiej jak cena produktu.
  3. Klastrowanie: grupuj podobne punkty danych w klastry lub grupy.
  4. Prognozowanie: przewidywanie przyszłych wartości liczbowych na podstawie danych szeregów czasowych, takich jak oczekiwana sprzedaż w nadchodzącym miesiącu.

Aby zdecydować, jakiego typu model uczenia maszynowego należy wytrenować, musisz najpierw zrozumieć problem biznesowy i dostępne dane.

Omówienie procesu nauki o danych

Aby wytrenować model uczenia maszynowego, proces zwykle obejmuje następujące kroki:

Diagram of sequential steps in the data science process.

  1. Definiowanie problemu: wraz z użytkownikami biznesowymi i analitykami zdecyduj, co powinien przewidzieć model i kiedy zakończy się powodzeniem.
  2. Pobieranie danych: znajdowanie źródeł danych i uzyskiwanie dostępu przez przechowywanie danych w usłudze Lakehouse.
  3. Przygotowywanie danych: Eksploruj dane, odczytując je z usługi Lakehouse do notesu. Czyszczenie i przekształcanie danych na podstawie wymagań modelu.
  4. Trenowanie modelu: wybierz algorytm i wartości hiperparametryczne na podstawie próby i błędu, śledząc eksperymenty za pomocą biblioteki MLflow.
  5. Generowanie szczegółowych informacji: użyj oceniania wsadowego modelu, aby wygenerować żądane przewidywania.

Jako analityk danych większość czasu poświęca się na przygotowywanie danych i trenowanie modelu. Sposób przygotowywania danych i wybranego algorytmu trenowania modelu może mieć wpływ na sukces modelu.

Model można przygotować i wytrenować przy użyciu bibliotek typu open source dostępnych dla wybranego języka. Jeśli na przykład pracujesz z językiem Python, możesz przygotować dane przy użyciu bibliotek Pandas i Numpy oraz wytrenować model z bibliotekami takimi jak Scikit-Learn, PyTorch lub SynapseML.

Podczas eksperymentowania chcesz zapoznać się ze wszystkimi różnymi modelami, które zostały wytrenowane. Chcesz zrozumieć, jak twoje wybory wpływają na sukces modelu. Śledząc eksperymenty za pomocą platformy MLflow w usłudze Microsoft Fabric, możesz łatwo zarządzać i wdrażać wytrenowane modele.