Aufteilen von Daten mithilfe der Empfehlungsaufteilung (Recommender)
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
In diesem Artikel wird beschrieben, wie Sie die Option Recommender Split im Modul Split Data von Machine Learning Studio (klassisch) verwenden. Diese Option ist nützlich, wenn Sie Trainings- und Testdatasets für die Verwendung mit einem Empfehlungsmodell vorbereiten müssen. Diese Modelle erfordern nicht nur ein bestimmtes Format, sondern es kann auch sehr schwierig sein, Bewertungen, Benutzer und Elemente ohne spezielle Tools ausgeglichen aufzuteilen.
Hinweis
Gilt nur für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Die Option Recommender split vereinfacht diesen Prozess, indem Sie nach dem Typ des Empfehlungsmodells fragen, mit dem Sie arbeiten: Empfehlen Sie beispielsweise Elemente, schlagen Sie eine Bewertung vor, oder suchen Sie verwandte Benutzer? Anschließend wird das Dataset durch von Ihnen angegebene Kriterien dividiert, z. B. wie kalte Benutzer oder kalte Elemente behandelt werden.
Wenn Sie die Datasets aufteilen, gibt das Modul zwei Datasets zurück, eines für das Training und das andere für Tests oder Modellauswertungen. Enthält das Eingabedataset irgendwelche zusätzlichen Daten pro Instanz (etwa Bewertungen), werden diese in den Ausgaben beibehalten.
Allgemeine Informationen zur Datenpartitionierung für Machine Learning-Experimente finden Sie unter
Zugehörige Aufgaben
Andere Optionen im Modul Split Data unterstützen verschiedene Möglichkeiten zum Teilen der Daten:
Teilen von Daten mit regulären Ausdrücken: Anwenden eines regulären Ausdrucks auf eine einzelne Textspalte und Teilen des Datasets basierend auf den Ergebnissen
Split recommender datasets: Divide datasets t+ Split data using relative expressions: Apply an expression to numeric data. (Datasets t+ Daten mithilfe relativer Ausdrücke teilen: Anwenden eines Ausdrucks auf numerische Daten.
Dividieren eines von einem Empfehlungsmodell verwendeten Datasets
Die Option Recommender Split wird speziell für Daten bereitgestellt, die zum Trainieren von Empfehlungssystemen verwendet werden.
Bevor Sie diese Option verwenden, stellen Sie sicher, dass Ihre Daten in einem kompatiblen Format vorliegen. Die Empfehlungsteilung funktioniert unter der Annahme, dass das Dataset nur aus Benutzer-Element-Paaren oder Dreiern für Benutzer-Element-Bewertungen besteht. Weitere Informationen finden Sie unter Anforderungen an Eingabedaten in diesem Artikel.
Fügen Sie das Modul Split Data Ihrem Experiment hinzu, und verbinden Sie es als Eingabe mit dem aufzuteilenden Dataset.
Wählen Sie unter Splitting mode (Aufteilungsmodus) die Option Recommender split (Empfehlungsteilung) aus.
Legen Sie die folgenden Optionen fest, um die Aufteilung von Werten zu steuern. Geben Sie einen Prozentsatz an, der als Zahl zwischen 0 und 1 dargestellt wird.
Bruchteil der Trainingsbenutzer: Geben Sie den Anteil der Benutzer an, die nur dem Trainingsdatensatz zugewiesen werden sollen. Dies bedeutet, dass die Zeilen nie zum Testen des Modells verwendet werden.
Anteil der Testbenutzerbewertungen für das Training: Geben Sie an, dass ein Teil der gesammelten Benutzerbewertungen für das Training verwendet werden kann.
Anteil der kalten Benutzer: Kalte Benutzer sind Benutzer, die das System noch nicht gefunden hat. In der Regel haben diese Benutzer, weil das System keine Informationen über sie hat, Potenzial für Training, aber Vorhersagen könnten ungenauer sein.
Anteil der kalten Elemente: Kalte Elemente sind Elemente, die das System zuvor nicht gefunden hat. In der Regel haben diese Elemente, weil das System keine Informationen über sie hat, Potenzial für Training, aber Vorhersagen könnten ungenauer sein.
Bruchteil der ignorierten Benutzer: Mit dieser Option kann die Empfehlung einige Benutzer ignorieren, wodurch Sie das Modell für eine Teilmenge der Daten trainieren können. Dies kann aus Leistungsgründen hilfreich sein. Sie geben den Prozentsatz der Benutzer an, die ignoriert werden sollen.
Bruchteil der ignorierten Elemente: Der Empfehlungsteiler kann einige Elemente ignorieren und das Modell für eine Teilmenge der Daten trainieren. Dies kann aus Leistungsgründen hilfreich sein. Sie geben den Prozentsatz der zu ignorierende Elemente an.
Gelegentlich erzeugte kalte Elemente entfernen: Diese Option ist in der Regel auf 0 (null) festgelegt, um sicherzustellen, dass alle Entitäten im Testsatz im Trainingssatz enthalten sind.
Ein Element wird als "fallweise kalt" bezeichnet, wenn es nur für das Testdataset berücksichtigt wurde, aber nicht explizit als kalt ausgewählt wurde. Solche Elemente können in den Schritten (4) und (6) im Algorithmus erstellt werden, was im Abschnitt So werden Empfehlungssystemdaten aufgeteilt beschrieben wird.
Zufälliger Ausgangswert für Empfehlung: Geben Sie einen Ausgangswert an, wenn Sie die Daten jedes Mal auf dieselbe Weise aufteilen möchten. Andernfalls werden die Eingabedaten standardmäßig nach dem Zufallsprinzip aufgeteilt, wobei ein Systemuhrwert als Ausgangswert verwendet wird.
Führen Sie das Experiment aus.
Beispiele
Beispiele zum Aufteilen einer Gruppe von Bewertungen und Features, die zum Trainieren oder Testen eines Empfehlungsmodells verwendet werden, erhalten Sie in der exemplarischen Vorgehensweise dieses Beispielexperiments im Azure KI-Katalog: Filmempfehlung.
Technische Hinweise
Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.
Anforderungen für Eingabedaten
Die Empfehlungsteilung funktioniert unter der Annahme, dass das Dataset nur aus Benutzer-Element-Paaren oder Dreiern für Benutzer-Element-Bewertungen besteht. Daher kann das Modul Split Data nicht für Datasets mit mehr als drei Spalten verwendet werden, um Verwechslungen mit Featuredaten zu vermeiden.
Wenn Ihr Dataset zu viele Spalten enthält, erhalten Sie möglicherweise diesen Fehler:
Fehler 0022: Anzahl ausgewählter Spalten im Eingabedataset entspricht nicht x
Als Problemumgehung können Sie Spalten im Dataset auswählen verwenden, um einige Spalten zu entfernen. Sie können die Spalten später immer wieder hinzufügen, indem Sie das Modul Spalten hinzufügen verwenden.
Wenn Ihr Dataset über viele Features verfügt, die Sie im Modell verwenden möchten, teilen Sie das Dataset alternativ mit einer anderen Option auf, und trainieren Sie das Modell mit Train Model anstelle von Train Matchbox Recommender.
Ausführliche Informationen zu den unterstützten Datenformaten finden Sie unter Train Matchbox Recommender.
Verwendungstipps
Wenn das Dataset nicht mindestens zwei Zeilen enthält, wird ein Fehler ausgelöst.
Wenn Sie eine Anzahl als Prozentzahl angeben oder eine Zeichenfolge verwenden, die das Zeichen "%" enthält, wird der Wert als Prozentsatz interpretiert.
Alle Prozentwerte müssen im Bereichs (0, 100) liegen, wobei die Werte 0 und 100 ausgeschlossen sind.
Wenn Sie eine Anzahl oder eine Prozentzahl angeben, die eine Gleitkommazahl kleiner 1 ist, und nicht das Prozentzeichen (%) verwenden, wird die Zahl als proportionaler Wert interpretiert.
Details zur Implementierung
Der folgende Algorithmus wird verwendet, wenn Daten in Trainings- und Testdatasets aufgeteilt werden, um in einem Empfehlungsmodell verwendet zu werden:
Der geforderte Anteil ignorierter Elemente wird mit allen zugehörigen Beobachtungen entfernt.
Der geforderte Anteil kalter Elemente wird mit allen zugehörigen Beobachtungen in das Testdataset verschoben.
Der geforderte Anteil ignorierter Benutzer, die nach den ersten beiden Schritten verblieben sind, wird mit allen zugehörigen Beobachtungen entfernt.
Der geforderte Anteil kalter Benutzer, die nach den ersten beiden Schritten verblieben sind, wird mit allen zugehörigen Beobachtungen in das Testdataset verschoben.
Der geforderte Anteil von nur zum Training verwendeten Benutzern, die nach den ersten beiden Schritten verblieben sind, wird mit allen zugehörigen Beobachtungen in das Trainingsdataset verschoben.
Für die nach allen vorherigen Schritten verbliebenen Benutzer wird der geforderte Anteil von Testbenutzerbewertungen in das Trainingsdataset verschoben, während der Rest in das Testdataset verschoben wird.
Mindestens eine Beobachtung wird immer in das Trainingsdataset für jeden Benutzer verschoben.
Falls erforderlich, können Instanzen, die den fallweise erstellten kalten Elementen zugewiesen sind, aus dem Testdataset entfernt werden.
Ein Element wird als "fallweise kalt" bezeichnet, wenn es nur für das Testdataset berücksichtigt wurde, aber nicht explizit als kalt ausgewählt wurde. Solche Elemente können in den Schritten (4) und (6) erstellt werden.
Die erwartete Verwendung dieser Option ist, dass die angeforderte Anzahl kalter Benutzer und Elemente auf 0 festgelegt ist. Dadurch wird sichergestellt, dass alle Entitäten im Testset im Trainingsset enthalten sind.