Samouczek: trenowanie modelu klasyfikacji bez uczenia maszynowego w usłudze Azure Machine Learning Studio

Artykuł
11/09/2024

Z tego samouczka dowiesz się, jak wytrenować model klasyfikacji bez użycia zautomatyzowanego uczenia maszynowego (AutoML) przy użyciu usługi Azure Machine Learning Studio. Ten model klasyfikacji przewiduje, czy klient subskrybuje stałe depozyty terminowe z instytucją finansową.

W przypadku zautomatyzowanego uczenia maszynowego można zautomatyzować zadania wymagające dużej ilości czasu. Zautomatyzowane uczenie maszynowe szybko iteruje wiele kombinacji algorytmów i hiperparametrów, aby ułatwić znalezienie najlepszego modelu na podstawie wybranej metryki sukcesu.

W tym samouczku nie piszesz żadnego kodu. Do trenowania służy interfejs studio. Dowiesz się, jak wykonywać następujące zadania:

Tworzenie obszaru roboczego usługi Azure Machine Learning
Uruchamianie eksperymentu zautomatyzowanego uczenia maszynowego
Eksplorowanie szczegółów modelu
Wdrażanie zalecanego modelu

Wymagania wstępne

Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto.
Pobierz plik danych bankmarketing_train.csv. Kolumna y wskazuje, czy klient zasubskrybował depozyt o stałym okresie, który później został zidentyfikowany jako kolumna docelowa przewidywań w tym samouczku.

Uwaga

Ten zestaw danych marketingu bankowego jest udostępniany w ramach licencji Creative Commons (CCO: Domena publiczna). Wszelkie prawa w poszczególnych treściach bazy danych są licencjonowane w ramach licencji zawartości bazy danych i dostępne na platformie Kaggle. Ten zestaw danych był pierwotnie dostępny w bazie danych UCI Machine Learning Database.

[Moro et al., 2014] S. Moro, P. Cortez i P. Rita. Podejście oparte na danych do przewidywania sukcesu telemarketingu bankowego. Decision Support Systems, Elsevier, 62:22-31, czerwiec 2014.

Tworzenie obszaru roboczego

Obszar roboczy usługi Azure Machine Learning to podstawowy zasób w chmurze używany do eksperymentowania, trenowania i wdrażania modeli uczenia maszynowego. Łączy subskrypcję platformy Azure i grupę zasobów z łatwo używanym obiektem w usłudze.

Wykonaj poniższe kroki, aby utworzyć obszar roboczy i kontynuować samouczek.

Zaloguj się do usługi Azure Machine Learning Studio.
Wybierz pozycję Utwórz obszar roboczy.

Podaj następujące informacje, aby skonfigurować nowy obszar roboczy:

Pole	opis
Nazwa obszaru roboczego	Wprowadź unikatową nazwę identyfikującą obszar roboczy. Nazwy muszą być unikatowe w całej grupie zasobów. Użyj nazwy, która jest łatwa do przywoływania i rozróżniania obszarów roboczych utworzonych przez inne osoby. Nazwa obszaru roboczego jest niewrażliwa na wielkość liter.
Subskrypcja	Wybierz subskrypcję platformy Azure, której chcesz użyć.
Grupa zasobów	Użyj grupy zasobów istniejącej w Twojej subskrypcji lub wprowadź nazwę, aby utworzyć nową grupę zasobów. Grupa zasobów zawiera powiązane zasoby dla rozwiązania platformy Azure. Aby użyć istniejącej grupy zasobów, potrzebujesz roli współautora lub właściciela . Aby uzyskać więcej informacji, zobacz Zarządzanie dostępem do obszaru roboczego usługi Azure Machine Learning.
Region (Region)	Wybierz region świadczenia usługi Azure najbliżej Twoich użytkowników i zasobów danych, aby utworzyć obszar roboczy.

Wybierz pozycję Utwórz , aby utworzyć obszar roboczy.

Aby uzyskać więcej informacji na temat zasobów platformy Azure, zobacz Tworzenie obszaru roboczego.

Aby uzyskać inne sposoby tworzenia obszaru roboczego na platformie Azure, zarządzanie obszarami roboczymi usługi Azure Machine Learning w portalu lub przy użyciu zestawu SDK języka Python (wersja 2).

Tworzenie zadania zautomatyzowanego uczenia maszynowego

Wykonaj następujące kroki konfigurowania i uruchamiania eksperymentu, korzystając z usługi Azure Machine Learning Studio pod adresem https://ml.azure.com. Machine Learning Studio to skonsolidowany interfejs internetowy, który obejmuje narzędzia uczenia maszynowego do wykonywania scenariuszy nauki o danych dla praktyków nauki o danych na wszystkich poziomach umiejętności. Studio nie jest obsługiwane w przeglądarkach programu Internet Explorer.

Wybierz subskrypcję i utworzony obszar roboczy.
W okienku nawigacji wybierz pozycję Tworzenie zautomatyzowanego uczenia>maszynowego.

Ponieważ ten samouczek jest pierwszym eksperymentem zautomatyzowanego uczenia maszynowego, zostanie wyświetlona pusta lista i linki do dokumentacji.
Wybierz pozycję Nowe zadanie zautomatyzowanego uczenia maszynowego.
W obszarze Metoda trenowania wybierz pozycję Trenuj automatycznie, a następnie wybierz pozycję Rozpocznij konfigurowanie zadania.
W obszarze Ustawienia podstawowe wybierz pozycję Utwórz nowy, a następnie w polu Nazwa eksperymentu wprowadź my-1st-automl-experiment.
Wybierz przycisk Dalej , aby załadować zestaw danych.

Tworzenie i ładowanie zestawu danych jako zasobu danych

Przed skonfigurowaniem eksperymentu przekaż plik danych do obszaru roboczego w postaci zasobu danych usługi Azure Machine Learning. W tym samouczku możesz traktować zasób danych jako zestaw danych dla zadania zautomatyzowanego uczenia maszynowego. Dzięki temu można mieć pewność, że dane są odpowiednio sformatowane dla eksperymentu.

W obszarze Typ zadania i dane w obszarze Wybierz typ zadania wybierz pozycję Klasyfikacja.

W obszarze Wybierz dane wybierz pozycję Utwórz.

W formularzu Typ danych podaj nazwę zasobu danych i podaj opcjonalny opis.
W polu Typ wybierz pozycję Tabelaryczny. Interfejs zautomatyzowanego uczenia maszynowego obecnie obsługuje tylko zestawy TabularDataset.
Wybierz Dalej.
W formularzu Źródło danych wybierz pozycję Z plików lokalnych. Wybierz Dalej.
W obszarze Docelowy typ magazynu wybierz domyślny magazyn danych, który został automatycznie skonfigurowany podczas tworzenia obszaru roboczego: workspaceblobstore. Plik danych można przekazać do tej lokalizacji, aby udostępnić go obszarowi roboczemu.
Wybierz Dalej.
W obszarze Wybór pliku lub folderu wybierz pozycję Przekaż pliki lub folder>Przekaż pliki.
Wybierz plik bankmarketing_train.csv na komputerze lokalnym. Ten plik został pobrany jako warunek wstępny.
Wybierz Dalej.

Po zakończeniu przekazywania obszar Podgląd danych zostanie wypełniony na podstawie typu pliku.

W formularzu Ustawienia przejrzyj wartości danych. Następnie kliknij przycisk Dalej.

Pole	opis	Wartość dla samouczka
File format	Definiuje układ i typ danych przechowywanych w pliku.	Rozdzielane
Ogranicznik	Co najmniej jeden znak określający granicę między oddzielnymi, niezależnymi regionami w postaci zwykłego tekstu lub innych strumieni danych.	Comma
Kodowanie	Określa, jakiego bitu do tabeli schematów znaków używać do odczytywania zestawu danych.	UTF-8
Nagłówki kolumn	Wskazuje, jak są traktowane nagłówki zestawu danych, jeśli istnieją.	Wszystkie pliki mają te same nagłówki
Pomiń wiersze	Wskazuje, ile wierszy zostanie pominiętych w zestawie danych, jeśli istnieje.	Brak

Formularz Schemat umożliwia dalszą konfigurację danych dla tego eksperymentu. W tym przykładzie wybierz przełącznik dla day_of_week, aby go nie dołączać. Wybierz Dalej.
W formularzu Przegląd zweryfikuj informacje, a następnie wybierz pozycję Utwórz.

Wybierz zestaw danych z listy.
Przejrzyj dane, wybierając zasób danych i przeglądając kartę podglądu . Upewnij się, że nie zawiera ona day_of_week i wybierz pozycję Zamknij.
Wybierz przycisk Dalej , aby przejść do ustawień zadania.

Konfigurowanie zadania

Po załadowaniu i skonfigurowaniu danych możesz skonfigurować eksperyment. Ta konfiguracja obejmuje zadania projektowe eksperymentów, takie jak wybór rozmiaru środowiska obliczeniowego i określenie kolumny, którą chcesz przewidzieć.

Wypełnij formularz Ustawienia zadania w następujący sposób:

Wybierz pozycję y (Ciąg) jako kolumnę docelową, która ma być przewidywana. Ta kolumna wskazuje, czy klient subskrybował depozyt terminowy, czy nie.

Wybierz pozycję Wyświetl dodatkowe ustawienia konfiguracji i wypełnij pola w następujący sposób. Te ustawienia umożliwiają lepszą kontrolę nad zadaniem trenowania. W przeciwnym razie wartości domyślne są stosowane na podstawie wyboru eksperymentu i danych.

Dodatkowe konfiguracje	opis	Wartość dla samouczka
Metryka podstawowa	Metryka oceny używana do mierzenia algorytmu uczenia maszynowego.	AUCWeighted
Wyjaśnienie najlepszego modelu	Automatycznie pokazuje możliwość wyjaśnienia najlepszego modelu utworzonego przez zautomatyzowane uczenie maszynowe.	Włącz
Zablokowane modele	Algorytmy, które mają zostać wykluczone z zadania trenowania	Brak

Wybierz pozycję Zapisz.

W obszarze Weryfikowanie i testowanie:
1. W polu Typ weryfikacji wybierz pozycję k-fold krzyżową walidację.
2. W polu Liczba krzyżowych walidacji wybierz pozycję 2.
Wybierz Dalej.
Wybierz klaster obliczeniowy jako typ obliczeniowy.

Docelowy obiekt obliczeniowy to lokalne lub oparte na chmurze środowisko zasobów używane do uruchamiania skryptu szkoleniowego lub hostowania wdrożenia usługi. W tym eksperymencie możesz wypróbować bezserwerowe obliczenia oparte na chmurze (wersja zapoznawcza) lub utworzyć własne obliczenia oparte na chmurze.

Uwaga

Aby korzystać z bezserwerowych obliczeń, włącz funkcję w wersji zapoznawczej, wybierz pozycję Bezserwerowe i pomiń tę procedurę.
Aby utworzyć własny docelowy obiekt obliczeniowy, w obszarze Wybierz typ obliczeniowy wybierz pozycję Klaster obliczeniowy, aby skonfigurować docelowy obiekt obliczeniowy.

Wypełnij formularz Maszyna wirtualna, aby skonfigurować obliczenia. Wybierz Nowy.

Pole	opis	Wartość dla samouczka
Lokalizacja	Region, z którego chcesz uruchomić maszynę	Zachodnie stany USA 2
Warstwa maszyny wirtualnej	Wybierz priorytet, jaki powinien mieć eksperyment	Dedykowane
Typ maszyny wirtualnej	Wybierz typ maszyny wirtualnej dla obliczeń.	Procesor CPU (centralna jednostka przetwarzania)
Rozmiar maszyny wirtualnej	Wybierz rozmiar maszyny wirtualnej dla obliczeń. Lista zalecanych rozmiarów jest udostępniana na podstawie danych i typu eksperymentu.	Standard_DS12_V2

Wybierz przycisk Dalej , aby przejść do formularza Ustawienia zaawansowane.

Pole	opis	Wartość dla samouczka
Nazwa obiektu obliczeniowego	Unikatowa nazwa identyfikująca kontekst obliczeniowy.	automl-compute
Minimalna/maksymalna liczba węzłów	Aby profilować dane, należy określić co najmniej 1 węzły.	Minimalna liczba węzłów: 1 Maksymalna liczba węzłów: 6
Bezczynność sekund przed skalowaniem w dół	Czas bezczynności przed automatycznym skalowaniem klastra w dół do minimalnej liczby węzłów.	120 (ustawienie domyślne)
Ustawienia zaawansowane	Ustawienia umożliwiające skonfigurowanie i autoryzowanie sieci wirtualnej na potrzeby eksperymentu.	Brak

Wybierz pozycję Utwórz.

Tworzenie obliczeń może potrwać kilka minut.
Po utworzeniu wybierz nowy docelowy obiekt obliczeniowy z listy. Wybierz Dalej.
Wybierz pozycję Prześlij zadanie trenowania, aby uruchomić eksperyment. Zostanie otwarty ekran Przegląd ze stanem u góry po rozpoczęciu przygotowywania eksperymentu. Ten stan jest aktualizowany w miarę postępu eksperymentu. Powiadomienia są również wyświetlane w studio, aby poinformować Cię o stanie eksperymentu.

Ważne

Przygotowanie trwa od 10 do 15 minut , aby przygotować przebieg eksperymentu. Po uruchomieniu kolejne 2–3 minuty dla każdej iteracji trwa 2–3 minuty.

W środowisku produkcyjnym prawdopodobnie odejdziesz trochę. Jednak na potrzeby tego samouczka możesz rozpocząć eksplorowanie przetestowanych algorytmów na karcie Modele , gdy pozostałe będą nadal działać.

Eksplorowanie modeli

Przejdź do karty Modele i zadania podrzędne, aby wyświetlić przetestowane algorytmy (modele). Domyślnie zadanie porządkuje modele według wyniku metryki w miarę ich ukończenia. W tym samouczku model, który ocenia najwyższą wartość na podstawie wybranej metryki AUCWeighted , znajduje się na początku listy.

Podczas oczekiwania na zakończenie wszystkich modeli eksperymentów wybierz nazwę algorytmu ukończonego modelu, aby zapoznać się ze szczegółami wydajności. Wybierz kartę Przegląd i Metryki , aby uzyskać informacje o zadaniu.

Poniższa animacja wyświetla właściwości, metryki i wykresy wydajności wybranego modelu.

Wyświetlanie wyjaśnień modelu

Podczas oczekiwania na ukończenie modeli możesz również przyjrzeć się wyjaśnieniom modelu i sprawdzić, które funkcje danych (nieprzetworzone lub zaprojektowane) miały wpływ na przewidywania określonego modelu.

Te wyjaśnienia modelu można wygenerować na żądanie. Pulpit nawigacyjny wyjaśnień modelu, który jest częścią karty Wyjaśnienia (wersja zapoznawcza) zawiera podsumowanie tych wyjaśnień.

Aby wygenerować wyjaśnienia modelu:

W linkach nawigacji w górnej części strony wybierz nazwę zadania, aby wrócić do ekranu Modele .
Wybierz kartę Modele i zadania podrzędne.
Na potrzeby tego samouczka wybierz pierwszy model MaxAbsScaler, LightGBM .
Wybierz pozycję Wyjaśnij model. Po prawej stronie zostanie wyświetlone okienko Wyjaśnij model .
Wybierz typ obliczeniowy, a następnie wybierz wystąpienie lub klaster: automl-compute , który został utworzony wcześniej. To obliczenie uruchamia zadanie podrzędne w celu wygenerowania wyjaśnień modelu.
Wybierz pozycję Utwórz. Zostanie wyświetlony zielony komunikat o powodzeniu.

Uwaga

Zadanie objaśnienia trwa około 2–5 minut.
Wybierz pozycję Wyjaśnienia (wersja zapoznawcza). Ta karta zostanie wypełniona po zakończeniu przebiegu objaśnienia.
Po lewej stronie rozwiń okienko. W obszarze Funkcje wybierz wiersz, który jest wyświetlany jako nieprzetworzone.
Wybierz kartę Agregacja ważności funkcji. Ten wykres pokazuje, które funkcje danych miały wpływ na przewidywania wybranego modelu.

W tym przykładzie czas trwania wydaje się mieć największy wpływ na przewidywania tego modelu.

Wdrażanie najlepszego modelu

Interfejs zautomatyzowanego uczenia maszynowego umożliwia wdrożenie najlepszego modelu jako usługi internetowej. Wdrożenie to integracja modelu, dzięki czemu może przewidywać nowe dane i identyfikować potencjalne obszary możliwości. W tym eksperymencie wdrożenie w usłudze internetowej oznacza, że instytucja finansowa ma teraz iteracyjne i skalowalne rozwiązanie internetowe do identyfikowania potencjalnych klientów z depozytami stałymi.

Sprawdź, czy przebieg eksperymentu został ukończony. W tym celu przejdź z powrotem do strony nadrzędnego zadania, wybierając nazwę zadania w górnej części ekranu. Stan Ukończono jest wyświetlany w lewym górnym rogu ekranu.

Po zakończeniu przebiegu eksperymentu strona Szczegóły zostanie wypełniona sekcją Podsumowanie najlepszego modelu . W tym kontekście eksperymentu votingEnsemble jest uważany za najlepszy model oparty na metryce AUCWeighted .

Wdróż ten model. Wdrożenie trwa około 20 minut. Proces wdrażania obejmuje kilka kroków, w tym rejestrowanie modelu, generowanie zasobów i konfigurowanie ich dla usługi internetowej.

Wybierz pozycję VotingEnsemble , aby otworzyć stronę specyficzną dla modelu.
Wybierz pozycję Wdróż>usługę internetową.

Wypełnij okienko Wdrażanie modelu w następujący sposób:

Pole	Wartość
Nazwisko	my-automl-deploy
opis	Moje pierwsze wdrożenie eksperymentu zautomatyzowanego uczenia maszynowego
Typ środowiska obliczeniowego	Wybieranie wystąpienia kontenera platformy Azure
Włącz uwierzytelnianie	Wyłącz.
Korzystanie z niestandardowych zasobów wdrażania	Wyłącz. Umożliwia automatyczne generowanie domyślnego pliku sterownika (skryptu oceniania) i pliku środowiska.

W tym przykładzie użyj wartości domyślnych podanych w menu Zaawansowane .

Wybierz Wdróż.

W górnej części ekranu Zadanie zostanie wyświetlony zielony komunikat o powodzeniu. W okienku Podsumowanie modelu w obszarze Stan wdrożenia zostanie wyświetlony komunikat o stanie. Wybierz pozycję Odśwież okresowo, aby sprawdzić stan wdrożenia.

Masz działającą usługę internetową do generowania przewidywań.

Przejdź do powiązanej zawartości , aby dowiedzieć się więcej na temat korzystania z nowej usługi internetowej i przetestować przewidywania przy użyciu usługi Power BI wbudowanej w obsłudze usługi Azure Machine Learning.

Czyszczenie zasobów

Pliki wdrażania są większe niż pliki danych i eksperymentów, więc kosztują więcej do przechowywania. Jeśli chcesz zachować obszar roboczy i pliki eksperymentów, usuń tylko pliki wdrożenia, aby zminimalizować koszty na koncie. Jeśli nie planujesz używania żadnego z plików, usuń całą grupę zasobów.

Usuwanie wystąpienia wdrożenia

Usuń tylko wystąpienie wdrożenia z usługi Azure Machine Learning pod adresem https://ml.azure.com/.

Przejdź do usługi Azure Machine Learning. Przejdź do obszaru roboczego i w okienku Zasoby wybierz pozycję Punkty końcowe.
Wybierz wdrożenie, które chcesz usunąć, a następnie wybierz pozycję Usuń.
Wybierz pozycję Kontynuuj.

Usuwanie grupy zasobów

Ważne

Utworzone zasoby mogą być używane jako wymagania wstępne w innych samouczkach usługi Azure Machine Learning i artykułach z instrukcjami.

Jeśli nie planujesz korzystać z żadnych utworzonych zasobów, usuń je, aby nie ponosić żadnych opłat:

W witrynie Azure Portal w polu wyszukiwania wprowadź ciąg Grupy zasobów i wybierz je z wyników.
Z listy wybierz utworzoną grupę zasobów.
Na stronie Przegląd wybierz pozycję Usuń grupę zasobów.
Wpisz nazwę grupy zasobów. Następnie wybierz Usuń.

W tym samouczku zautomatyzowanego uczenia maszynowego użyto zautomatyzowanego interfejsu uczenia maszynowego usługi Azure Machine Learning do utworzenia i wdrożenia modelu klasyfikacji. Aby uzyskać więcej informacji i następnych kroków, zobacz następujące zasoby:

Dowiedz się więcej na temat zautomatyzowanego uczenia maszynowego.
Dowiedz się więcej o metrykach klasyfikacji i wykresach: artykuł Ocena wyników eksperymentu zautomatyzowanego uczenia maszynowego.
Dowiedz się więcej o sposobie konfigurowania automatycznego uczenia maszynowego na potrzeby nlp.

Wypróbuj również zautomatyzowane uczenie maszynowe dla tych innych typów modeli:

Aby zapoznać się z przykładem prognozowania bez kodu, zobacz Tutorial: Forecast demand with no-code automated machine learning in the Azure Machine Learning Studio (Samouczek: prognozowanie zapotrzebowania bez zautomatyzowanego uczenia maszynowego bez kodu w usłudze Azure Machine Learning Studio).
Aby zapoznać się z pierwszym przykładem kodu modelu wykrywania obiektów, zobacz Samouczek: trenowanie modelu wykrywania obiektów przy użyciu rozwiązania AutoML i języka Python.

Udostępnij za pośrednictwem

Samouczek: trenowanie modelu klasyfikacji bez uczenia maszynowego w usłudze Azure Machine Learning Studio

Wymagania wstępne

Tworzenie obszaru roboczego

Tworzenie zadania zautomatyzowanego uczenia maszynowego

Tworzenie i ładowanie zestawu danych jako zasobu danych

Konfigurowanie zadania

Eksplorowanie modeli

Wyświetlanie wyjaśnień modelu

Wdrażanie najlepszego modelu

Czyszczenie zasobów

Usuwanie wystąpienia wdrożenia

Usuwanie grupy zasobów

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Samouczek: trenowanie modelu klasyfikacji bez uczenia maszynowego w usłudze Azure Machine Learning Studio

Wymagania wstępne

Tworzenie obszaru roboczego

Tworzenie zadania zautomatyzowanego uczenia maszynowego

Tworzenie i ładowanie zestawu danych jako zasobu danych

Konfigurowanie zadania

Eksplorowanie modeli

Wyświetlanie wyjaśnień modelu

Wdrażanie najlepszego modelu

Czyszczenie zasobów

Usuwanie wystąpienia wdrożenia

Usuwanie grupy zasobów

Powiązana zawartość

Opinia

Dodatkowe zasoby