Co to jest rozwiązanie AutoML?

Ukończone

AutoML to funkcja usługi Azure Databricks, która umożliwia automatyzowanie trenowania i oceny modelu uczenia maszynowego przy użyciu różnych kombinacji algorytmów i wartości hiperparametrów. Korzystając z rozwiązania AutoML, można zmniejszyć nakład pracy związany z procesem trenowania modelu iteracyjnego i szybciej utworzyć optymalny model dla danych.

Jak działa rozwiązanie AutoML?

Rozwiązanie AutoML działa przez generowanie wielu przebiegów eksperymentów, z których każdy trenuje model przy użyciu innego algorytmu i kombinacji hiperparametrów. W każdym przebiegu model jest trenowany i oceniany na podstawie danych i określonej metryki predykcyjnej. Usługa Azure Databricks śledzi przebiegi i modele, które tworzą przy użyciu platformy MLflow, umożliwiając identyfikowanie najlepszego modelu i wdrażanie go w środowisku produkcyjnym.

Diagram przedstawiający proces automatycznego uczenia maszynowego.

  1. Rozpoczniesz eksperyment rozwiązania AutoML, określając tabelę w obszarze roboczym usługi Azure Databricks jako źródło danych na potrzeby trenowania i metrykę wydajności, dla której chcesz zoptymalizować.
  2. Eksperyment automatycznego uczenia maszynowego generuje wiele przebiegów MLflow, z których każdy tworzy notes z kodem w celu wstępnego przetwarzania danych przed trenowaniem i walidacją modelu. Wytrenowane modele są zapisywane jako artefakty w uruchomieniu platformy MLflow lub plikach w magazynie systemu plików DBFS.
  3. Przebiegi eksperymentu są wymienione w kolejności wydajności, z najlepiej wydajnymi modelami wyświetlanymi jako pierwsze. Możesz eksplorować notesy, które zostały wygenerowane dla każdego przebiegu, wybrać model, którego chcesz użyć, a następnie zarejestrować i wdrożyć.

Napiwek

Aby uzyskać szczegółowe informacje na temat konkretnych przekształceń wstępnego przetwarzania i algorytmów trenowania używanych przez rozwiązanie AutoML, zobacz Jak działa rozwiązanie AutoML usługi Azure Databricks w dokumentacji usługi Azure Databricks.

Przygotowywanie danych do rozwiązania AutoML

Rozwiązanie AutoML wymaga źródła danych treningowych, które zawierają wartości cech i etykiet. Aby udostępnić te dane, utwórz tabelę w magazynie metadanych Hive w obszarze roboczym usługi Azure Databricks.

Prostym sposobem utworzenia tabeli danych szkoleniowych dla rozwiązania AutoML jest przekazanie pliku danych w portalu usługi Azure Databricks, jak pokazano tutaj.

Zrzut ekranu przedstawiający interfejs przekazywania danych dla usługi Azure Databricks.

Rozwiązanie AutoML generuje kod do obsługi typowych zadań przetwarzania wstępnego danych; takie jak kodowanie zmiennych kategorii, skalowanie zmiennych liczbowych, obsługa wartości null i radzenie sobie z niezrównoważonymi zestawami danych.