Udostępnij za pośrednictwem


Samouczek: trenowanie modelu klasyfikacji bez uczenia maszynowego w usłudze Azure Machine Learning Studio

Z tego samouczka dowiesz się, jak wytrenować model klasyfikacji bez użycia zautomatyzowanego uczenia maszynowego (AutoML) przy użyciu usługi Azure Machine Learning Studio. Ten model klasyfikacji przewiduje, czy klient subskrybuje stałe depozyty terminowe z instytucją finansową.

W przypadku zautomatyzowanego uczenia maszynowego można zautomatyzować zadania wymagające dużej ilości czasu. Zautomatyzowane uczenie maszynowe szybko iteruje wiele kombinacji algorytmów i hiperparametrów, aby ułatwić znalezienie najlepszego modelu na podstawie wybranej metryki sukcesu.

W tym samouczku nie piszesz żadnego kodu. Do trenowania służy interfejs studio. Dowiesz się, jak wykonywać następujące zadania:

  • Tworzenie obszaru roboczego usługi Azure Machine Learning
  • Uruchamianie eksperymentu zautomatyzowanego uczenia maszynowego
  • Eksplorowanie szczegółów modelu
  • Wdrażanie zalecanego modelu

Wymagania wstępne

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto.

  • Pobierz plik danych bankmarketing_train.csv. Kolumna y wskazuje, czy klient zasubskrybował depozyt o stałym okresie, który później został zidentyfikowany jako kolumna docelowa przewidywań w tym samouczku.

    Uwaga

    Ten zestaw danych marketingu bankowego jest udostępniany w ramach licencji Creative Commons (CCO: Domena publiczna). Wszelkie prawa w poszczególnych treściach bazy danych są licencjonowane w ramach licencji zawartości bazy danych i dostępne na platformie Kaggle. Ten zestaw danych był pierwotnie dostępny w bazie danych UCI Machine Learning Database.

    [Moro et al., 2014] S. Moro, P. Cortez i P. Rita. Podejście oparte na danych do przewidywania sukcesu telemarketingu bankowego. Decision Support Systems, Elsevier, 62:22-31, czerwiec 2014.

Tworzenie obszaru roboczego

Obszar roboczy usługi Azure Machine Learning to podstawowy zasób w chmurze używany do eksperymentowania, trenowania i wdrażania modeli uczenia maszynowego. Łączy subskrypcję platformy Azure i grupę zasobów z łatwo używanym obiektem w usłudze.

Wykonaj poniższe kroki, aby utworzyć obszar roboczy i kontynuować samouczek.

  1. Zaloguj się do usługi Azure Machine Learning Studio.

  2. Wybierz pozycję Utwórz obszar roboczy.

  3. Podaj następujące informacje, aby skonfigurować nowy obszar roboczy:

    Pole opis
    Nazwa obszaru roboczego Wprowadź unikatową nazwę identyfikującą obszar roboczy. Nazwy muszą być unikatowe w całej grupie zasobów. Użyj nazwy, która jest łatwa do przywoływania i rozróżniania obszarów roboczych utworzonych przez inne osoby. Nazwa obszaru roboczego jest niewrażliwa na wielkość liter.
    Subskrypcja Wybierz subskrypcję platformy Azure, której chcesz użyć.
    Grupa zasobów Użyj grupy zasobów istniejącej w Twojej subskrypcji lub wprowadź nazwę, aby utworzyć nową grupę zasobów. Grupa zasobów zawiera powiązane zasoby dla rozwiązania platformy Azure. Aby użyć istniejącej grupy zasobów, potrzebujesz roli współautora lub właściciela . Aby uzyskać więcej informacji, zobacz Zarządzanie dostępem do obszaru roboczego usługi Azure Machine Learning.
    Region (Region) Wybierz region świadczenia usługi Azure najbliżej Twoich użytkowników i zasobów danych, aby utworzyć obszar roboczy.
  4. Wybierz pozycję Utwórz , aby utworzyć obszar roboczy.

Aby uzyskać więcej informacji na temat zasobów platformy Azure, zobacz Tworzenie obszaru roboczego.

Aby uzyskać inne sposoby tworzenia obszaru roboczego na platformie Azure, zarządzanie obszarami roboczymi usługi Azure Machine Learning w portalu lub przy użyciu zestawu SDK języka Python (wersja 2).

Tworzenie zadania zautomatyzowanego uczenia maszynowego

Wykonaj następujące kroki konfigurowania i uruchamiania eksperymentu, korzystając z usługi Azure Machine Learning Studio pod adresem https://ml.azure.com. Machine Learning Studio to skonsolidowany interfejs internetowy, który obejmuje narzędzia uczenia maszynowego do wykonywania scenariuszy nauki o danych dla praktyków nauki o danych na wszystkich poziomach umiejętności. Studio nie jest obsługiwane w przeglądarkach programu Internet Explorer.

  1. Wybierz subskrypcję i utworzony obszar roboczy.

  2. W okienku nawigacji wybierz pozycję Tworzenie zautomatyzowanego uczenia>maszynowego.

    Ponieważ ten samouczek jest pierwszym eksperymentem zautomatyzowanego uczenia maszynowego, zostanie wyświetlona pusta lista i linki do dokumentacji.

    Zrzut ekranu przedstawia stronę Zautomatyzowane uczenie maszynowe, na której można utworzyć nowe zadanie zautomatyzowanego uczenia maszynowego.

  3. Wybierz pozycję Nowe zadanie zautomatyzowanego uczenia maszynowego.

  4. W obszarze Metoda trenowania wybierz pozycję Trenuj automatycznie, a następnie wybierz pozycję Rozpocznij konfigurowanie zadania.

  5. W obszarze Ustawienia podstawowe wybierz pozycję Utwórz nowy, a następnie w polu Nazwa eksperymentu wprowadź my-1st-automl-experiment.

  6. Wybierz przycisk Dalej , aby załadować zestaw danych.

Tworzenie i ładowanie zestawu danych jako zasobu danych

Przed skonfigurowaniem eksperymentu przekaż plik danych do obszaru roboczego w postaci zasobu danych usługi Azure Machine Learning. W tym samouczku możesz traktować zasób danych jako zestaw danych dla zadania zautomatyzowanego uczenia maszynowego. Dzięki temu można mieć pewność, że dane są odpowiednio sformatowane dla eksperymentu.

  1. W obszarze Typ zadania i dane w obszarze Wybierz typ zadania wybierz pozycję Klasyfikacja.

  2. W obszarze Wybierz dane wybierz pozycję Utwórz.

    1. W formularzu Typ danych podaj nazwę zasobu danych i podaj opcjonalny opis.

    2. W polu Typ wybierz pozycję Tabelaryczny. Interfejs zautomatyzowanego uczenia maszynowego obecnie obsługuje tylko zestawy TabularDataset.

    3. Wybierz Dalej.

    4. W formularzu Źródło danych wybierz pozycję Z plików lokalnych. Wybierz Dalej.

    5. W obszarze Docelowy typ magazynu wybierz domyślny magazyn danych, który został automatycznie skonfigurowany podczas tworzenia obszaru roboczego: workspaceblobstore. Plik danych można przekazać do tej lokalizacji, aby udostępnić go obszarowi roboczemu.

    6. Wybierz Dalej.

    7. W obszarze Wybór pliku lub folderu wybierz pozycję Przekaż pliki lub folder>Przekaż pliki.

    8. Wybierz plik bankmarketing_train.csv na komputerze lokalnym. Ten plik został pobrany jako warunek wstępny.

    9. Wybierz Dalej.

      Po zakończeniu przekazywania obszar Podgląd danych zostanie wypełniony na podstawie typu pliku.

    10. W formularzu Ustawienia przejrzyj wartości danych. Następnie kliknij przycisk Dalej.

      Pole opis Wartość dla samouczka
      File format Definiuje układ i typ danych przechowywanych w pliku. Rozdzielane
      Ogranicznik Co najmniej jeden znak określający granicę między oddzielnymi, niezależnymi regionami w postaci zwykłego tekstu lub innych strumieni danych. Comma
      Kodowanie Określa, jakiego bitu do tabeli schematów znaków używać do odczytywania zestawu danych. UTF-8
      Nagłówki kolumn Wskazuje, jak są traktowane nagłówki zestawu danych, jeśli istnieją. Wszystkie pliki mają te same nagłówki
      Pomiń wiersze Wskazuje, ile wierszy zostanie pominiętych w zestawie danych, jeśli istnieje. Brak
    11. Formularz Schemat umożliwia dalszą konfigurację danych dla tego eksperymentu. W tym przykładzie wybierz przełącznik dla day_of_week, aby go nie dołączać. Wybierz Dalej.

      Zrzut ekranu przedstawia formularz Schemat, w którym można ekslcuować kolumny z danych.

    12. W formularzu Przegląd zweryfikuj informacje, a następnie wybierz pozycję Utwórz.

  3. Wybierz zestaw danych z listy.

  4. Przejrzyj dane, wybierając zasób danych i przeglądając kartę podglądu . Upewnij się, że nie zawiera ona day_of_week i wybierz pozycję Zamknij.

  5. Wybierz przycisk Dalej , aby przejść do ustawień zadania.

Konfigurowanie zadania

Po załadowaniu i skonfigurowaniu danych możesz skonfigurować eksperyment. Ta konfiguracja obejmuje zadania projektowe eksperymentów, takie jak wybór rozmiaru środowiska obliczeniowego i określenie kolumny, którą chcesz przewidzieć.

  1. Wypełnij formularz Ustawienia zadania w następujący sposób:

    1. Wybierz pozycję y (Ciąg) jako kolumnę docelową, która ma być przewidywana. Ta kolumna wskazuje, czy klient subskrybował depozyt terminowy, czy nie.

    2. Wybierz pozycję Wyświetl dodatkowe ustawienia konfiguracji i wypełnij pola w następujący sposób. Te ustawienia umożliwiają lepszą kontrolę nad zadaniem trenowania. W przeciwnym razie wartości domyślne są stosowane na podstawie wyboru eksperymentu i danych.

      Dodatkowe konfiguracje opis Wartość dla samouczka
      Metryka podstawowa Metryka oceny używana do mierzenia algorytmu uczenia maszynowego. AUCWeighted
      Wyjaśnienie najlepszego modelu Automatycznie pokazuje możliwość wyjaśnienia najlepszego modelu utworzonego przez zautomatyzowane uczenie maszynowe. Włącz
      Zablokowane modele Algorytmy, które mają zostać wykluczone z zadania trenowania Brak
    3. Wybierz pozycję Zapisz.

  2. W obszarze Weryfikowanie i testowanie:

    1. W polu Typ weryfikacji wybierz pozycję k-fold krzyżową walidację.
    2. W polu Liczba krzyżowych walidacji wybierz pozycję 2.
  3. Wybierz Dalej.

  4. Wybierz klaster obliczeniowy jako typ obliczeniowy.

    Docelowy obiekt obliczeniowy to lokalne lub oparte na chmurze środowisko zasobów używane do uruchamiania skryptu szkoleniowego lub hostowania wdrożenia usługi. W tym eksperymencie możesz wypróbować bezserwerowe obliczenia oparte na chmurze (wersja zapoznawcza) lub utworzyć własne obliczenia oparte na chmurze.

    Uwaga

    Aby korzystać z bezserwerowych obliczeń, włącz funkcję w wersji zapoznawczej, wybierz pozycję Bezserwerowe i pomiń tę procedurę.

  5. Aby utworzyć własny docelowy obiekt obliczeniowy, w obszarze Wybierz typ obliczeniowy wybierz pozycję Klaster obliczeniowy, aby skonfigurować docelowy obiekt obliczeniowy.

  6. Wypełnij formularz Maszyna wirtualna, aby skonfigurować obliczenia. Wybierz Nowy.

    Pole opis Wartość dla samouczka
    Lokalizacja Region, z którego chcesz uruchomić maszynę Zachodnie stany USA 2
    Warstwa maszyny wirtualnej Wybierz priorytet, jaki powinien mieć eksperyment Dedykowane
    Typ maszyny wirtualnej Wybierz typ maszyny wirtualnej dla obliczeń. Procesor CPU (centralna jednostka przetwarzania)
    Rozmiar maszyny wirtualnej Wybierz rozmiar maszyny wirtualnej dla obliczeń. Lista zalecanych rozmiarów jest udostępniana na podstawie danych i typu eksperymentu. Standard_DS12_V2
  7. Wybierz przycisk Dalej , aby przejść do formularza Ustawienia zaawansowane.

    Zrzut ekranu przedstawiający stronę Ustawienia zaawansowane, na której wprowadzasz wartości dla klastra obliczeniowego.

    Pole opis Wartość dla samouczka
    Nazwa obiektu obliczeniowego Unikatowa nazwa identyfikująca kontekst obliczeniowy. automl-compute
    Minimalna/maksymalna liczba węzłów Aby profilować dane, należy określić co najmniej 1 węzły. Minimalna liczba węzłów: 1
    Maksymalna liczba węzłów: 6
    Bezczynność sekund przed skalowaniem w dół Czas bezczynności przed automatycznym skalowaniem klastra w dół do minimalnej liczby węzłów. 120 (ustawienie domyślne)
    Ustawienia zaawansowane Ustawienia umożliwiające skonfigurowanie i autoryzowanie sieci wirtualnej na potrzeby eksperymentu. Brak
  8. Wybierz pozycję Utwórz.

    Tworzenie obliczeń może potrwać kilka minut.

  9. Po utworzeniu wybierz nowy docelowy obiekt obliczeniowy z listy. Wybierz Dalej.

  10. Wybierz pozycję Prześlij zadanie trenowania, aby uruchomić eksperyment. Zostanie otwarty ekran Przegląd ze stanem u góry po rozpoczęciu przygotowywania eksperymentu. Ten stan jest aktualizowany w miarę postępu eksperymentu. Powiadomienia są również wyświetlane w studio, aby poinformować Cię o stanie eksperymentu.

Ważne

Przygotowanie trwa od 10 do 15 minut , aby przygotować przebieg eksperymentu. Po uruchomieniu kolejne 2–3 minuty dla każdej iteracji trwa 2–3 minuty.

W środowisku produkcyjnym prawdopodobnie odejdziesz trochę. Jednak na potrzeby tego samouczka możesz rozpocząć eksplorowanie przetestowanych algorytmów na karcie Modele , gdy pozostałe będą nadal działać.

Eksplorowanie modeli

Przejdź do karty Modele i zadania podrzędne, aby wyświetlić przetestowane algorytmy (modele). Domyślnie zadanie porządkuje modele według wyniku metryki w miarę ich ukończenia. W tym samouczku model, który ocenia najwyższą wartość na podstawie wybranej metryki AUCWeighted , znajduje się na początku listy.

Podczas oczekiwania na zakończenie wszystkich modeli eksperymentów wybierz nazwę algorytmu ukończonego modelu, aby zapoznać się ze szczegółami wydajności. Wybierz kartę Przegląd i Metryki , aby uzyskać informacje o zadaniu.

Poniższa animacja wyświetla właściwości, metryki i wykresy wydajności wybranego modelu.

Animacja przedstawiająca różne widoki dostępne dla zadania podrzędnego.

Wyświetlanie wyjaśnień modelu

Podczas oczekiwania na ukończenie modeli możesz również przyjrzeć się wyjaśnieniom modelu i sprawdzić, które funkcje danych (nieprzetworzone lub zaprojektowane) miały wpływ na przewidywania określonego modelu.

Te wyjaśnienia modelu można wygenerować na żądanie. Pulpit nawigacyjny wyjaśnień modelu, który jest częścią karty Wyjaśnienia (wersja zapoznawcza) zawiera podsumowanie tych wyjaśnień.

Aby wygenerować wyjaśnienia modelu:

  1. W linkach nawigacji w górnej części strony wybierz nazwę zadania, aby wrócić do ekranu Modele .

  2. Wybierz kartę Modele i zadania podrzędne.

  3. Na potrzeby tego samouczka wybierz pierwszy model MaxAbsScaler, LightGBM .

  4. Wybierz pozycję Wyjaśnij model. Po prawej stronie zostanie wyświetlone okienko Wyjaśnij model .

  5. Wybierz typ obliczeniowy, a następnie wybierz wystąpienie lub klaster: automl-compute , który został utworzony wcześniej. To obliczenie uruchamia zadanie podrzędne w celu wygenerowania wyjaśnień modelu.

  6. Wybierz pozycję Utwórz. Zostanie wyświetlony zielony komunikat o powodzeniu.

    Uwaga

    Zadanie objaśnienia trwa około 2–5 minut.

  7. Wybierz pozycję Wyjaśnienia (wersja zapoznawcza). Ta karta zostanie wypełniona po zakończeniu przebiegu objaśnienia.

  8. Po lewej stronie rozwiń okienko. W obszarze Funkcje wybierz wiersz, który jest wyświetlany jako nieprzetworzone.

  9. Wybierz kartę Agregacja ważności funkcji. Ten wykres pokazuje, które funkcje danych miały wpływ na przewidywania wybranego modelu.

    Zrzut ekranu przedstawiający pulpit nawigacyjny Wyjaśnienie modelu z wyświetlonym zagregowanym wykresem ważności funkcji.

    W tym przykładzie czas trwania wydaje się mieć największy wpływ na przewidywania tego modelu.

Wdrażanie najlepszego modelu

Interfejs zautomatyzowanego uczenia maszynowego umożliwia wdrożenie najlepszego modelu jako usługi internetowej. Wdrożenie to integracja modelu, dzięki czemu może przewidywać nowe dane i identyfikować potencjalne obszary możliwości. W tym eksperymencie wdrożenie w usłudze internetowej oznacza, że instytucja finansowa ma teraz iteracyjne i skalowalne rozwiązanie internetowe do identyfikowania potencjalnych klientów z depozytami stałymi.

Sprawdź, czy przebieg eksperymentu został ukończony. W tym celu przejdź z powrotem do strony nadrzędnego zadania, wybierając nazwę zadania w górnej części ekranu. Stan Ukończono jest wyświetlany w lewym górnym rogu ekranu.

Po zakończeniu przebiegu eksperymentu strona Szczegóły zostanie wypełniona sekcją Podsumowanie najlepszego modelu . W tym kontekście eksperymentu votingEnsemble jest uważany za najlepszy model oparty na metryce AUCWeighted .

Wdróż ten model. Wdrożenie trwa około 20 minut. Proces wdrażania obejmuje kilka kroków, w tym rejestrowanie modelu, generowanie zasobów i konfigurowanie ich dla usługi internetowej.

  1. Wybierz pozycję VotingEnsemble , aby otworzyć stronę specyficzną dla modelu.

  2. Wybierz pozycję Wdróż>usługę internetową.

  3. Wypełnij okienko Wdrażanie modelu w następujący sposób:

    Pole Wartość
    Nazwisko my-automl-deploy
    opis Moje pierwsze wdrożenie eksperymentu zautomatyzowanego uczenia maszynowego
    Typ środowiska obliczeniowego Wybieranie wystąpienia kontenera platformy Azure
    Włącz uwierzytelnianie Wyłącz.
    Korzystanie z niestandardowych zasobów wdrażania Wyłącz. Umożliwia automatyczne generowanie domyślnego pliku sterownika (skryptu oceniania) i pliku środowiska.

    W tym przykładzie użyj wartości domyślnych podanych w menu Zaawansowane .

  4. Wybierz Wdróż.

    W górnej części ekranu Zadanie zostanie wyświetlony zielony komunikat o powodzeniu. W okienku Podsumowanie modelu w obszarze Stan wdrożenia zostanie wyświetlony komunikat o stanie. Wybierz pozycję Odśwież okresowo, aby sprawdzić stan wdrożenia.

Masz działającą usługę internetową do generowania przewidywań.

Przejdź do powiązanej zawartości , aby dowiedzieć się więcej na temat korzystania z nowej usługi internetowej i przetestować przewidywania przy użyciu usługi Power BI wbudowanej w obsłudze usługi Azure Machine Learning.

Czyszczenie zasobów

Pliki wdrażania są większe niż pliki danych i eksperymentów, więc kosztują więcej do przechowywania. Jeśli chcesz zachować obszar roboczy i pliki eksperymentów, usuń tylko pliki wdrożenia, aby zminimalizować koszty na koncie. Jeśli nie planujesz używania żadnego z plików, usuń całą grupę zasobów.

Usuwanie wystąpienia wdrożenia

Usuń tylko wystąpienie wdrożenia z usługi Azure Machine Learning pod adresem https://ml.azure.com/.

  1. Przejdź do usługi Azure Machine Learning. Przejdź do obszaru roboczego i w okienku Zasoby wybierz pozycję Punkty końcowe.

  2. Wybierz wdrożenie, które chcesz usunąć, a następnie wybierz pozycję Usuń.

  3. Wybierz pozycję Kontynuuj.

Usuwanie grupy zasobów

Ważne

Utworzone zasoby mogą być używane jako wymagania wstępne w innych samouczkach usługi Azure Machine Learning i artykułach z instrukcjami.

Jeśli nie planujesz korzystać z żadnych utworzonych zasobów, usuń je, aby nie ponosić żadnych opłat:

  1. W witrynie Azure Portal w polu wyszukiwania wprowadź ciąg Grupy zasobów i wybierz je z wyników.

  2. Z listy wybierz utworzoną grupę zasobów.

  3. Na stronie Przegląd wybierz pozycję Usuń grupę zasobów.

    Zrzut ekranu przedstawiający wybrane opcje usuwania grupy zasobów w witrynie Azure Portal.

  4. Wpisz nazwę grupy zasobów. Następnie wybierz Usuń.

W tym samouczku zautomatyzowanego uczenia maszynowego użyto zautomatyzowanego interfejsu uczenia maszynowego usługi Azure Machine Learning do utworzenia i wdrożenia modelu klasyfikacji. Aby uzyskać więcej informacji i następnych kroków, zobacz następujące zasoby:

Wypróbuj również zautomatyzowane uczenie maszynowe dla tych innych typów modeli: