Udostępnij za pośrednictwem


Analizowanie danych przy użyciu usługi Azure Machine Learning

W tym samouczku użyto projektanta usługi Azure Machine Learning do utworzenia predykcyjnego modelu uczenia maszynowego. Model jest oparty na danych przechowywanych w usłudze Azure Synapse. Scenariusz samouczka polega na przewidywaniu, czy klient prawdopodobnie kupi rower, a nie tak Adventure Works, sklep rowerowy, może zbudować docelową kampanię marketingową.

Wymagania wstępne

Do wykonania kroków opisanych w tym samouczku potrzebne są:

  • wstępnie załadowana pula SQL z przykładowymi danymi AdventureWorksDW. Aby aprowizować tę pulę SQL, zobacz Tworzenie puli SQL i wybieranie ładowania przykładowych danych. Jeśli masz już magazyn danych, ale nie masz przykładowych danych, możesz załadować przykładowe dane ręcznie.
  • obszar roboczy usługi Azure Machine Learning. Wykonaj czynności opisane w tym samouczku , aby utworzyć nowy.

Pobieranie danych

Użyte dane są w widoku dbo.vTargetMail w bazie danych AdventureWorksDW. Aby użyć magazynu danych w tym samouczku, dane są najpierw eksportowane na konto usługi Azure Data Lake Storage, ponieważ usługa Azure Synapse obecnie nie obsługuje zestawów danych. Za pomocą usługi Azure Data Factory można eksportować dane z magazynu danych do usługi Azure Data Lake Storage przy użyciu działania kopiowania. Użyj następującego zapytania do importowania:

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

Gdy dane będą dostępne w usłudze Azure Data Lake Storage, magazyny danych w usłudze Azure Machine Learning są używane do łączenia się z usługami Azure Storage. Wykonaj poniższe kroki, aby utworzyć magazyn danych i odpowiedni zestaw danych:

  1. Uruchom program Azure Machine Learning Studio z witryny Azure Portal lub zaloguj się w usłudze Azure Machine Learning Studio.

  2. Kliknij pozycję Magazyny danych w okienku po lewej stronie w sekcji Zarządzanie , a następnie kliknij pozycję Nowy magazyn danych.

    Zrzut ekranu przedstawiający lewe okienko interfejsu usługi Azure Machine Learning

  3. Podaj nazwę magazynu danych, wybierz typ "Azure Blob Storage", podaj lokalizację i poświadczenia. Następnie kliknij pozycję Utwórz.

  4. Następnie kliknij pozycję Zestawy danych w okienku po lewej stronie w sekcji Zasoby . Wybierz pozycję Utwórz zestaw danych z opcją Z magazynu danych.

  5. Określ nazwę zestawu danych i wybierz typ, który ma być tabelaryczny. Następnie kliknij przycisk Dalej , aby przejść do przodu.

  6. W obszarze Wybierz lub utwórz sekcję magazynu danych wybierz opcję Wcześniej utworzony magazyn danych. Wybierz utworzony wcześniej magazyn danych. Kliknij przycisk Dalej i określ ścieżkę i ustawienia pliku. Pamiętaj, aby określić nagłówek kolumny, jeśli pliki zawierają jeden.

  7. Na koniec kliknij przycisk Utwórz , aby utworzyć zestaw danych.

Konfigurowanie eksperymentu projektanta

Następnie wykonaj poniższe kroki, aby uzyskać konfigurację projektanta:

  1. Kliknij kartę Projektant w okienku po lewej stronie w sekcji Autor.

  2. Wybierz pozycję Łatwe do użycia wstępnie utworzone składniki , aby utworzyć nowy potok.

  3. W okienku ustawień po prawej stronie określ nazwę potoku.

  4. Ponadto wybierz docelowy klaster obliczeniowy dla całego eksperymentu w obszarze ustawień do wcześniej aprowizowanego klastra. Zamknij okienko Ustawienia.

Importowanie danych

  1. Wybierz podtabę Zestawy danych w okienku po lewej stronie poniżej pola wyszukiwania.

  2. Przeciągnij utworzony wcześniej zestaw danych na kanwę.

    Zrzut ekranu przedstawiający składnik zestawu danych na kanwie.

Czyszczenie danych

Aby wyczyścić dane, upuść kolumny, które nie są istotne dla modelu. Wykonaj poniższe kroki:

  1. Wybierz podtabę Components (Składniki) w okienku po lewej stronie.

  2. Przeciągnij składnik Select Columns in Dataset (Wybieranie kolumn w zestawie danych) w obszarze Manipulowanie przekształcaniem < danych na kanwę. Połącz ten składnik ze składnikiem Zestaw danych .

    Zrzut ekranu przedstawiający składnik wyboru kolumny na kanwie.

  3. Kliknij składnik, aby otworzyć okienko właściwości. Kliknij pozycję Edytuj kolumnę, aby określić kolumny, które chcesz usunąć.

  4. Wyklucz dwie kolumny: CustomerAlternateKey i GeographyKey. Kliknij pozycję Zapisz

    Zrzut ekranu przedstawiający porzucone kolumny.

Tworzenie modelu

Dane są podzielone na 80–20: 80% w celu wytrenowania modelu uczenia maszynowego i 20% w celu przetestowania modelu. Algorytmy "Dwuklasowe" są używane w tym problemie klasyfikacji binarnej.

  1. Przeciągnij składnik Split Data (Podział danych) na kanwę.

  2. W okienku właściwości wprowadź wartość 0,8 w polu Ułamek wierszy w pierwszym wyjściowym zestawie danych.

    Zrzut ekranu przedstawiający współczynnik podziału równy 0,8.

  3. Przeciągnij składnik Two-Class Boosted Decision Tree (Dwuklasowe wzmocnione drzewo decyzyjne) na kanwę.

  4. Przeciągnij składnik Train Model (Trenowanie modelu) na kanwę. Określ dane wejściowe, łącząc je ze składnikami Dwuklasowego wzmocnionego drzewa decyzyjnego (algorytm uczenia maszynowego) i Split Data (dane w celu wytrenowania algorytmu).

  5. W obszarze Train Model model (Trenowanie modelu) w opcji Etykieta w okienku Właściwości wybierz pozycję Edytuj kolumnę. Wybierz kolumnę BikeBuyer jako kolumnę do przewidywania i wybierz pozycję Zapisz.

    Zrzut ekranu przedstawiający kolumnę etykiety BikeBuyer wybraną.

    Zrzut ekranu przedstawiający składnik Train Model połączony z dwuklasowym wzmocnionym drzewem decyzyjnym i składnikami split data.

Ocenianie modelu

Teraz przetestuj, jak model działa na danych testowych. Dwa różne algorytmy zostaną porównane, aby zobaczyć, który z nich działa lepiej. Wykonaj poniższe kroki:

  1. Przeciągnij składnik Score Model (Generowanie wyników dla modelu) na kanwę i połącz go ze składnikami Train Model (Trenowanie modelu) i Split Data (Podział danych).

  2. Przeciągnij dwuklasowy algorytm Bayes Averaged Perceptron do kanwy eksperymentu. Porównasz, jak ten algorytm działa w porównaniu z dwuklasowym wzmocnione drzewo decyzyjne.

  3. Skopiuj i wklej składniki Train Model (Trenowanie modelu) i Score Model (Generowanie wyników dla modelu) na kanwie.

  4. Przeciągnij składnik Evaluate Model (Ocena modelu) na kanwę, aby porównać dwa algorytmy.

  5. Kliknij przycisk Prześlij , aby skonfigurować przebieg potoku.

    Zrzut ekranu przedstawiający wszystkie pozostałe składniki na kanwie.

  6. Po zakończeniu przebiegu kliknij prawym przyciskiem myszy składnik Evaluate Model (Ocena modelu ), a następnie kliknij polecenie Visualize Evaluation results (Wizualizacja wyników oceny).

    Zrzut ekranu przedstawiający wyniki.

Podane metryki to krzywa ROC, diagram precyzji i krzywa podnoszenia. Przyjrzyj się tym metryce, aby zobaczyć, że pierwszy model działał lepiej niż drugi. Aby sprawdzić, co przewiduje pierwszy model, kliknij prawym przyciskiem myszy składnik Score Model (Generowanie wyników dla modelu), a następnie kliknij pozycję Visualize Scored dataset (Wizualizuj wygenerowany zestaw danych), aby wyświetlić przewidywane wyniki.

Zobaczysz jeszcze dwie kolumny dodane do zestawu danych testowych.

  • Scored Probabilities (Sklasyfikowane prawdopodobieństwo): prawdopodobieństwo, że klient jest nabywcą roweru.
  • Scored Labels (Sklasyfikowane etykiety): klasyfikacja dokonana przez model — nabywca roweru (1) lub nie (0). Ustawiony próg prawdopodobieństwa etykietowania wynosi 50% i można go dostosować.

Porównaj kolumnę BikeBuyer (rzeczywista) z etykietami scored (prediction), aby zobaczyć, jak dobrze działa model. Następnie możesz użyć tego modelu do przewidywania nowych klientów. Ten model można opublikować jako usługę internetową lub zapisać wyniki z powrotem w usłudze Azure Synapse.

Następne kroki

Aby dowiedzieć się więcej na temat usługi Azure Machine Learning, zobacz Wprowadzenie do uczenia maszynowego na platformie Azure.

Dowiedz się więcej o wbudowanym ocenianiu w magazynie danych tutaj.