Wykrywanie języków
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Wykrywa język każdego wiersza w pliku wejściowym
Kategoria: analiza tekstu
Uwaga
Dotyczy: tylko Machine Learning Studio (klasyczne)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób używania modułu Detect Languages w programie Machine Learning Studio (wersja klasyczna) do analizowania danych wejściowych tekstu i identyfikowania języka skojarzonego z każdym rekordem w danych wejściowych.
Algorytm wykrywania języka może identyfikować wiele różnych języków. Wystarczy określić kolumnę ciągu do przeanalizowania oraz łączną liczbę języków do wykrycia. Algorytm przeanalizuje każdy wiersz tekstu i przypisze wynik prawdopodobieństwa dla każdego języka. Język w pierwszej kolumnie wyników to język, który uzyskał najwyższą ocenę.
Jak skonfigurować wykrywanie języków
Dodaj zestaw danych zawierający tekst, który chcesz przeanalizować, do eksperymentu w programie Machine Learning Studio (wersja klasyczna). Kolumna zawierająca tekst do przeanalizowania musi być typem danych ciągu.
Zestaw dat nie musi zawierać kolumny etykiety; Algorytm wykrywania języka działa wyłącznie na funkcjach językowych obsługiwanych języków.
Jeśli importujesz nowe dane, upewnij się, że dane zostały zapisane w formacie UTF-8. Inne formaty Unicode nie są obsługiwane.
Dodaj moduł Detect Languages (Wykrywanie języków ) do eksperymentu i połącz zestaw danych z tekstem do wykrywania języka.
W polu Kolumna tekstowa wybierz kolumnę, którą chcesz przeanalizować.
W przypadku górnej granicy liczby języków do wykrycia wskaż maksymalną liczbę języków do wykrycia.
Ustawienie górnej granicy liczby języków może zwiększyć wydajność.
Uruchom eksperyment.
Wyniki
Moduł Detect Languages (Wykrywanie języków) wyprowadza identyfikator języka i ocenę dla każdego wiersza.
Na przykład następująca tabela zawiera przykładową analizę danych testowych.
Dwie pierwsze kolumny col1 i etykieta języka to kolumny przekazane z wejściowego zestawu danych. Ponieważ w tym przykładzie wejściowy zestaw danych został zaprojektowany do testowania modułu, oczekiwany język był już znany i znajduje się w kolumnie etykiet.
Pozostałe kolumny są generowane przez moduł Detect Languages (Wykrywanie języków ). Jeśli istnieją równoważnie prawdopodobne dopasowania języków, na liście może być kilka języków z wynikiem dla każdego z nich. W tym przypadku moduł przewiduje tylko jeden język dla każdego wiersza wraz z wynikiem prawdopodobieństwa dla tego języka.
Jeśli moduł nie wykryje żadnego języka z wystarczająco wysokim wynikiem, wynikiem jest (Nieznany) z wynikiem 0. Jednak języki obsługiwane przez moduł mogą zmieniać się wraz z czasem, gdy interfejs API jest aktualizowany.
Col1 | Etykieta języka | Język Col1 | Col1 , język Iso6391 | Col1 Iso6391 Language Score |
---|---|---|---|---|
Wspaniały hotel z przyjaznym personelem i dobrą usługą | Angielski | Angielski | en | 100 |
Es war ein wunderbares Hotel mit freundlichem Personal und guter service | Niemiecki | Niemiecki | de | 100 |
C'est un lupque hcutel avec un personnelsique et un service de qualiique | Francuski | Francuski | fr | 100 |
Det var et dejligt hotel med et venligt personale og god service | Duński | Duński | nl | 100 |
Va ser un magnfic hotel amb un personal amable i bon servei | Kataloński | Kataloński | Ca | 92.30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | japoński | (Nieznany) | 0 | |
qu mebpa'mey naQ friendly QaQ chavmoH je | Klingoński | Francuski | fr | 77.5 |
Przykłady
Aby uzyskać przykłady dotyczące sposobu, w jaki moduł Detect Languages jest używany w eksperymencie, zobacz Azure AI Gallery:
- Filtruj tytuły filmów według języka: wykrywa język używany w nazwach filmów, a następnie używa identyfikatora języka, aby podzielić zestaw danych na filmy w języku angielskim lub innym niż angielski.
Uwagi techniczne
Ogólne informacje na temat języków, które mogą zostać wykryte, można znaleźć w Translator Bing.
Można wykryć o wiele więcej języków, niż Machine Learning obecnie obsługuje zaawansowaną analizę tekstu. Zalecamy użycie wyników polecenia Wykryj języki do filtrowania wyników, które są wysyłana do innych modułów wymagających przetwarzania specyficznego dla języka.
Podstawowe usługi językowe są również używane przez usługę analiza tekstu w Azure Cognitive Services.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Dane wejściowe |
Parametry modułu
Nazwa | Typ | Zakres | Opcjonalne | Domyślny | Opis |
---|---|---|---|---|---|
Górna granica liczby języków do wykrycia | Liczba całkowita | [1;184] | Wymagane | 1 | Górna granica liczby języków do wykrycia. |
Kolumna tekstowa | ColumnSelection | Wymagane | Nazwa lub oparty na jednym indeksie kolumny tekstowej. |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych wyników | Tabela danych | Wynik |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0003 | Wyjątek występuje, jeśli co najmniej jeden z wejść ma wartość null lub jest pusty. |
Błąd 0010 | Wyjątek występuje, jeśli wejściowe zestawy danych mają nazwy kolumn, które powinny być zgodne, ale nie. |
Błąd 0016 | Wyjątek występuje, jeśli wejściowe zestawy danych przekazane do modułu powinny mieć zgodne typy kolumn, ale nie. |
Błąd 0008 | Wyjątek występuje, jeśli parametr nie znajduje się w zakresie. |
Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.
Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).