Udostępnij za pośrednictwem


Analizowanie danych przy użyciu usługi Azure Machine Learning

W tym samouczku użyto projektanta usługi Azure Machine Learning do utworzenia predykcyjnego modelu uczenia maszynowego. Model jest oparty na danych przechowywanych w usłudze Azure Synapse. Scenariusz samouczka polega na przewidywaniu, czy klient prawdopodobnie kupi rower, aby Adventure Works, sklep rowerowy, mogło opracować ukierunkowaną kampanię marketingową.

Wymagania wstępne

Aby przejść przez ten samouczek, potrzebujesz:

  • pula SQL z wcześniej załadowanymi przykładowymi danymi AdventureWorksDW. Aby skonfigurować tę pulę SQL, zobacz sekcję Tworzenie puli SQL i wybierz ładowanie przykładowych danych. Jeśli masz już magazyn danych, ale nie masz przykładowych danych, możesz załadować przykładowe dane ręcznie.
  • obszar roboczy usługi Azure Machine Learning. Wykonaj czynności opisane w tym samouczku , aby utworzyć nowy.

Pobieranie danych

Użyte dane są w widoku dbo.vTargetMail w bazie danych AdventureWorksDW. Aby użyć Datastore w tym samouczku, dane są najpierw eksportowane na konto Azure Data Lake Storage, ponieważ Azure Synapse obecnie nie obsługuje zestawów danych. Za pomocą usługi Azure Data Factory można eksportować dane z magazynu danych do usługi Azure Data Lake Storage przy użyciu działania kopiowania. Użyj następującego zapytania do importowania:

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

Gdy dane będą dostępne w usłudze Azure Data Lake Storage, magazyny danych w usłudze Azure Machine Learning są używane do łączenia się z usługami Azure Storage. Wykonaj poniższe kroki, aby utworzyć magazyn danych i odpowiedni zestaw danych:

  1. Uruchom program Azure Machine Learning Studio z witryny Azure Portal lub zaloguj się w usłudze Azure Machine Learning Studio.

  2. Kliknij pozycję Magazyny danych w okienku po lewej stronie w sekcji Zarządzanie , a następnie kliknij pozycję Nowy magazyn danych.

    Zrzut ekranu przedstawiający lewe okienko interfejsu usługi Azure Machine Learning

  3. Podaj nazwę magazynu danych, wybierz typ "Azure Blob Storage", podaj lokalizację i poświadczenia. Następnie kliknij pozycję Utwórz.

  4. Następnie kliknij pozycję Zbiory danych w okienku po lewej stronie w sekcji Zasoby. Wybierz pozycję Utwórz zestaw danych z opcją Z magazynu danych.

  5. Określ nazwę zestawu danych i wybierz typ, który ma być tabelaryczny. Następnie kliknij przycisk Dalej , aby przejść do przodu.

  6. W sekcji Wybierz lub utwórz magazyn danych wybierz opcję Wcześniej utworzony magazyn danych. Wybierz utworzony wcześniej magazyn danych. Kliknij przycisk Dalej i określ ścieżkę i ustawienia pliku. Pamiętaj, aby określić nagłówek kolumny, jeśli pliki zawierają jeden.

  7. Na koniec kliknij przycisk Utwórz , aby utworzyć zestaw danych.

Skonfiguruj eksperyment projektowy

Następnie wykonaj poniższe kroki, aby uzyskać konfigurację projektanta:

  1. Kliknij kartę Projektant w okienku po lewej stronie w sekcji Autor.

  2. Wybierz łatwe w użyciu, gotowe składniki, aby utworzyć nowy potok.

  3. W okienku ustawień po prawej stronie określ nazwę potoku.

  4. Ponadto w ustawieniach wybierz docelowy klaster obliczeniowy dla całego eksperymentu, wskazując na wcześniej skonfigurowany klaster. Zamknij okienko Ustawienia.

Importowanie danych

  1. Wybierz podtabę Zestawy danych w okienku po lewej stronie poniżej pola wyszukiwania.

  2. Przeciągnij utworzony wcześniej zestaw danych na kanwę.

    Zrzut ekranu przedstawiający składnik zestawu danych na kanwie.

Czyszczenie danych

Aby wyczyścić dane, upuść kolumny, które nie są istotne dla modelu. Wykonaj poniższe kroki:

  1. Wybierz podtabę Components (Składniki) w okienku po lewej stronie.

  2. Przeciągnij składnik Wybierz kolumny w zestawie danych do kanwy pod Manipulowanie przekształcaniem danych. Połącz ten składnik ze składnikiem Zestaw danych .

    Zrzut ekranu przedstawiający składnik wyboru kolumny na kanwie.

  3. Kliknij składnik, aby otworzyć okienko właściwości. Kliknij pozycję Edytuj kolumnę, aby określić kolumny, które chcesz usunąć.

  4. Wyklucz dwie kolumny: CustomerAlternateKey i GeographyKey. Kliknij pozycję Zapisz

    Zrzut ekranu przedstawiający porzucone kolumny.

Tworzenie modelu

Dane są podzielone na 80–20: 80% w celu wytrenowania modelu uczenia maszynowego i 20% w celu przetestowania modelu. Algorytmy dwuklasowe są używane w tym problemie klasyfikacji binarnej.

  1. Przeciągnij składnik Podział danych na kanwę.

  2. W okienku właściwości wprowadź wartość 0,8 w polu Ułamek wierszy w pierwszym wyjściowym zestawie danych.

    Zrzut ekranu przedstawiający współczynnik podziału równy 0,8.

  3. Przeciągnij element Dwuklasowe wzmocnione drzewo decyzyjne (Two-Class Boosted Decision Tree) na obszar roboczy.

  4. Przeciągnij składnik Train Model na kanwę. Określ dane wejściowe, łącząc je ze składnikami Dwuklasowego wzmocnionego drzewa decyzyjnego (algorytm uczenia maszynowego) i Split Data (dane w celu wytrenowania algorytmu).

  5. W modelu Train Model (Trenowanie modelu) w kolumnie Etykieta okienka Właściwości wybierz pozycję Edytuj kolumnę. Wybierz kolumnę BikeBuyer jako kolumnę do przewidywania i wybierz pozycję Zapisz.

    Zrzut ekranu przedstawiający wybraną kolumnę z etykietą BikeBuyer.

    Zrzut ekranu przedstawiający składnik Train Model połączony z dwuklasowym wzmocnionym drzewem decyzyjnym i składnikami split data.

Ocenianie modelu

Teraz przetestuj, jak model działa na danych testowych. Dwa różne algorytmy zostaną porównane, aby zobaczyć, który z nich działa lepiej. Wykonaj poniższe kroki:

  1. Przeciągnij składnik Score Model na kanwę i połącz go ze składnikami Train Model (Trenowanie modelu) oraz Split Data (Podział danych).

  2. Przeciągnij dwuklasowy algorytm Bayes Averaged Perceptron do kanwy eksperymentu. Porównasz, jak ten algorytm działa w porównaniu z dwuklasowym wzmocnione drzewo decyzyjne.

  3. Skopiuj i wklej składniki Train Model i Score Model na płótnie.

  4. Przeciągnij składnik Evaluate Model (Ocena modelu) na kanwę, aby porównać dwa algorytmy.

  5. Kliknij przycisk Prześlij , aby skonfigurować przebieg potoku.

    Zrzut ekranu przedstawiający wszystkie pozostałe składniki na kanwie.

  6. Po zakończeniu przebiegu kliknij prawym przyciskiem myszy składnik Ocena modelu, a następnie wybierz polecenie Wizualizacja wyników oceny.

    Zrzut ekranu przedstawiający wyniki.

Podane metryki to krzywa ROC, wykres precyzji i wykres liftu. Przyjrzyj się tym metryce, aby zobaczyć, że pierwszy model działał lepiej niż drugi. Aby sprawdzić, co przewiduje pierwszy model, kliknij prawym przyciskiem myszy składnik Score Model (Generowanie wyników dla modelu), a następnie kliknij pozycję Visualize Scored dataset (Wizualizuj wygenerowany zestaw danych), aby wyświetlić przewidywane wyniki.

Zobaczysz jeszcze dwie kolumny dodane do zestawu danych testowych.

  • Ocenione prawdopodobieństwa: prawdopodobieństwo, że klient jest nabywcą roweru.
  • Ocenione etykiety: klasyfikacja dokonana przez model, nabywca roweru (1) lub nie (0). Ustawiony próg prawdopodobieństwa etykietowania wynosi 50% i można go dostosować.

Porównaj kolumnę BikeBuyer (rzeczywista) z etykietami scored (prediction), aby zobaczyć, jak dobrze działa model. Następnie możesz użyć tego modelu do przewidywania nowych klientów. Ten model można opublikować jako usługę internetową lub zapisać wyniki z powrotem w usłudze Azure Synapse.

Następne kroki

Aby dowiedzieć się więcej na temat usługi Azure Machine Learning, zobacz Wprowadzenie do uczenia maszynowego na platformie Azure.

Dowiedz się więcej o wbudowanym ocenianiu w magazynie danych tutaj.