Was ist AutoML?

Abgeschlossen

AutoML ist ein Feature von Azure Databricks, mit dem Sie das Training und die Bewertung eines Machine Learning-Modells unter Verwendung verschiedener Kombinationen von Algorithmen und Hyperparameterwerten automatisieren können. Durch den Einsatz von AutoML können Sie den Aufwand für ein iteratives Modelltraining verringern und schneller ein optimales Modell für Ihre Daten erstellen.

Wie funktioniert automatisiertes maschinelles Lernen?

AutoML generiert mehrere Experimentausführungen, von denen jede ein Modell mit einem anderen Algorithmus und einer anderen Kombination von Hyperparametern trainiert. Bei jeder Ausführung wird ein Modell trainiert und basierend auf den von Ihnen angegebenen Daten und Vorhersagemetriken bewertet. Azure Databricks verfolgt die Ausführungen und die von ihnen erzeugten Modelle mithilfe von MLflow, damit Sie das Modell mit der besten Leistung ermitteln und in der Produktion bereitstellen können.

Abbildung: AutoML-Prozess

  1. Sie starten ein AutoML-Experiment, indem Sie eine Tabelle in Ihrem Azure Databricks-Arbeitsbereich als Datenquelle für das Training sowie die spezifische Leistungsmetrik angeben, anhand derer die Optimierung erfolgen soll.
  2. Das AutoML-Experiment generiert mehrere MLflow-Ausführungen, die jeweils ein Notebook mit Code zur Vorverarbeitung der Daten vor dem Training und der Validierung eines Modells erzeugen. Die trainierten Modelle werden als Artefakte in den MLflow-Ausführungen oder als Dateien im DBFS-Speicher gespeichert.
  3. Die Experimentausführungen werden in der Reihenfolge ihrer Leistung aufgelistet, wobei die Modelle mit der besten Leistung zuerst angezeigt werden. Sie können die für jede Ausführung generierten Notebooks durchsuchen, das gewünschte Modell auswählen und es dann registrieren und bereitstellen.

Tipp

Ausführliche Informationen zu den spezifischen Vorverarbeitungstransformationen und Trainingsalgorithmen, die von AutoML verwendet werden, finden Sie in der Azure Databricks-Dokumentation unter Funktionsweise von Azure Databricks AutoML.

Aufbereiten von Daten für AutoML

AutoML benötigt eine Quelle mit Trainingsdaten, die Feature- und Beschriftungswerte enthalten. Zur Bereitstellung dieser Daten erstellen Sie eine Tabelle im Hive-Metastore in Ihrem Azure Databricks-Arbeitsbereich.

Eine einfache Möglichkeit zum Erstellen einer Tabelle mit Trainingsdaten für AutoML besteht (wie hier gezeigt) darin, eine Datendatei in das Azure Databricks-Portal hochzuladen.

Screenshot: Benutzeroberfläche zum Hochladen von Daten für Azure Databricks

AutoML generiert Code für gängige Datenvorverarbeitungsaufgaben, beispielsweise für die Codierung kategorischer Variablen, die Skalierung numerischer Variablen und den Umgang mit NULL-Werten und unausgewogenen Datasets.