Erkennen von Sprachen
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
Erkennt die Sprache jeder Zeile in der Eingabedatei.
Kategorie: Textanalyse
Hinweis
Gilt für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Modul Sprachen erkennen in Machine Learning Studio (klassisch) verwenden, um Texteingaben zu analysieren und die Sprache zu identifizieren, die jedem Datensatz in der Eingabe zugeordnet ist.
Der Spracherkennungsalgorithmus kann viele verschiedene Sprachen identifizieren. Geben Sie einfach die zu analysierende Zeichenfolgenspalte und die Gesamtzahl der zu erkennenden Sprachen an. Der Algorithmus analysiert jede Textzeile und weist jeder Sprache eine Wahrscheinlichkeitsnote zu. Die Sprache in der ersten Ergebnisspalte ist die Sprache, die die höchste Bewertung erhalten hat.
Konfigurieren von Sprachen erkennen
Fügen Sie das Dataset mit dem Text, den Sie analysieren möchten, einem Experiment in Machine Learning Studio (klassisch) hinzu. Die Spalte mit dem zu analysierenden Text muss der Zeichenfolgendatentyp sein.
Das Datset muss keine Bezeichnungsspalte enthalten. der Spracherkennungsalgorithmus arbeitet ausschließlich mit linguistischen Merkmalen der unterstützten Sprachen.
Wenn Sie neue Daten importieren, stellen Sie sicher, dass Ihre Daten im UTF-8-Format gespeichert werden. Andere Unicode-Formate werden nicht unterstützt.
Fügen Sie Ihrem Experiment das Modul Sprachen erkennen hinzu, und verbinden Sie das Dataset mit dem Text für die Sprachenerkennung.
Wählen Sie unter Textspalte die Spalte aus, die Sie analysieren möchten.
Geben Sie für Upper bound on number of languages to detect (Obergrenze für die Anzahl der zu erkennenden Sprachen) die maximale Anzahl von sprachen an, die erkannt werden müssen.
Das Festlegen einer Obergrenze für die Anzahl von Sprachen kann die Leistung verbessern.
Führen Sie das Experiment aus.
Ergebnisse
Das Modul Sprachen erkennen gibt einen Sprachbezeichner und eine Bewertung für jede Zeile aus.
Die folgende Tabelle enthält beispielsweise eine Beispielanalyse für Testdaten.
Die ersten beiden Spalten col1 undlanguage label sind Spalten, die aus dem Eingabe-Dataset übergeben werden. Da das Eingabe-Dataset in diesem Beispiel zum Testen des Moduls entworfen wurde, war die erwartete Sprache bereits bekannt und wird in der Bezeichnungsspalte bereitgestellt.
Die übrigen Spalten werden vom Modul Sprachen erkennen generiert. Wenn es gleich wahrscheinliche Spracherkenntnisse gibt, werden möglicherweise mehrere Sprachen mit jeweils einer Bewertung aufgelistet. In diesem Fall sagt das Modul nur eine Sprache für jede Zeile zusammen mit dem Wahrscheinlichkeitswert für diese Sprache voraus.
Wenn das Modul keine Sprache mit einer ausreichend hohen Bewertung erkennt, wird das Ergebnis (Unbekannt) mit der Bewertung 0 ausgegeben. Die vom Modul unterstützten Sprachen können sich jedoch im Laufe der Zeit ändern, wenn die API aktualisiert wird.
Col1 | Sprachbezeichnung | Sprache Col1 | Col1 Iso6391 Language | Col1 Iso6391 Language Score |
---|---|---|---|---|
Es war ein großartiges Hotel mit einem nutzerfreundlichen Personal und gutem Service. | Englisch | Englisch | en | 100 |
Es war einungen Hotel mit freundlichem Personal und guter Service | Deutsch | Deutsch | de | 100 |
C'est un magnifique h °tel avec un personnelique et un service de qualiqualifizierten | Französisch | Französisch | fr | 100 |
Det var et dejligt hotel et venligt personale og service | Dänisch | Dänisch | nl | 100 |
Va ser un magnáfic hotel amb un personal amable i bon servei | Katalanisch | Katalanisch | ca | 92.30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | Japanisch | (Unbekannt) | 0 | |
qu mebpa'mey naQ friendly QaQ chavmoH je | Klingonisch | Französisch | fr | 77.5 |
Beispiele
Beispiele für die Verwendung des Moduls Sprachen erkennen in einem Experiment finden Sie im Azure KI-Katalog:
- Filtern von Filmtiteln nach Sprache: Erkennt die sprache, die in Filmnamen verwendet wird, und verwendet dann den Sprachbezeichner, um das Dataset in englische und nicht englische Filme zu unterteilen.
Technische Hinweise
Eine allgemeine Vorstellung der Sprachen, die möglicherweise erkannt werden können, finden Sie unter Bing-Übersetzer.
Es können viel mehr Sprachen erkannt werden, als Machine Learning derzeit für die erweiterte Textanalyse unterstützt. Es wird empfohlen, die Ergebnisse von Sprachen erkennen zu verwenden, um die Ergebnisse zu filtern, die Sie an andere Module senden, die sprachspezifische Verarbeitung erfordern.
Die zugrunde liegenden linguistischen Dienste werden auch vom Textanalyse dienst in Azure Cognitive Services.
Erwartete Eingaben
Name | Type | Beschreibung |
---|---|---|
Dataset | Datentabelle | Die Eingabe-. |
Modulparameter
Name | Typ | Range | Optional | Standard | Beschreibung |
---|---|---|---|---|---|
Obergrenze für die Anzahl der sprachen, die erkannt werden sollen | Integer | [1;184] | Erforderlich | 1 | Obere Grenze für die Anzahl der sprachen, die erkannt werden sollen. |
Textspalte | ColumnSelection | Erforderlich | Name oder ein basierter Index der Textspalte. |
Ausgaben
Name | Type | Beschreibung |
---|---|---|
Ergebnisdataset | Datentabelle | Das Ergebnis |
Ausnahmen
Ausnahme | Beschreibung |
---|---|
Fehler 0003 | Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist. |
Fehler 0010 | Eine Ausnahme tritt auf, wenn Eingabedatasets übereinstimmende Spaltennamen aufweisen sollten, dies aber nicht der Fall ist. |
Fehler 0016 | Eine Ausnahme tritt auf, wenn an das Modul übergebene Eingabedatasets kompatible Spaltentypen aufweisen sollten, dies aber nicht der Fall ist. |
Fehler 0008 | Eine Ausnahme tritt auf, wenn der Parameter nicht im Bereich liegt. |
Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.
Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.