Merkmalserstellung für Transferlernen
Dieser Artikel enthält ein Beispiel für die Featurisierung von Lerntransfers mithilfe von Pandas-UDFs.
Featurisierung für den Lerntransfer in DL-Modellen
Azure Databricks unterstützt die Merkmalserstellung mit Deep Learning-Modellen. Mithilfe vorab trainierter Deep Learning-Modelle können Merkmale berechnet werden, die in anderen Downstreammodellen verwendet werden können. Azure Databricks unterstützt die bedarfsorientierte Merkmalserstellung und verteilt die Berechnung dabei auf einen Cluster. Sie können die Featurisierung mit Deep-Learning-Bibliotheken wie TensorFlow oder PyTorch in Databricks Runtime ML durchführen.
Azure Databricks unterstützt darüber hinaus Transferlernen, eine eng mit der Merkmalserstellung verwandte Technik. Mit Transferlernen können Sie Wissen aus einem Problembereich in einem verwandten Bereich wiederverwenden. Die Merkmalserstellung ist selbst eine einfache und leistungsstarke Methode für das Transferlernen: Bei der Berechnung von Merkmalen mithilfe eines vorab trainierten Deep Learning-Modells wird Wissen über nützliche Merkmale aus dem ursprünglichen Bereich übertragen.
Schritte zum Berechnen von Features für den Lerntransfer
In diesem Artikel wird veranschaulicht, wie Sie Features für den Lerntransfer mithilfe eines vortrainierten TensorFlow-Modells und des folgenden Workflows berechnen:
- Beginnen Sie mit einem vortrainierten Deep-Learning-Modell, in diesem Fall einem Bildklassifizierungsmodell von
tensorflow.keras.applications
. - Schneiden Sie die letzten Schichten des Modells ab. Das geänderte Modell erzeugt keine Vorhersage, sondern einen Tensor an Features als Ausgabe.
- Wenden Sie dieses Modell auf ein neues Bilddataset aus einer anderen Problemdomäne an, damit die Features für die Bilder berechnet werden.
- Verwenden Sie diese Features, um ein neues Modell zu trainieren. Im folgenden Notebook wird dieser letzte Schritt ausgelassen. Beispiele für das Trainieren eines einfachen Modells, z. B. logistische Regression, finden Sie unter KI- und ML-Modelle trainieren.
Beispiel: Verwenden von Pandas-UDFs für die Featurisierung
Im folgenden Notebook werden Pandas-UDFs verwendet, um den Featurisierungsschritt durchzuführen. Pandas-UDFs und deren neuere Variante, Pandas-UDFs mit Skalariteratoren, bieten flexible APIs, unterstützen alle Deep-Learning-Bibliotheken und ermöglichen eine hohe Leistung.