Detekovat jazyky
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Detekuje jazyk každého řádku ve vstupním souboru.
kategorie: Analýza textu
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
Přehled modulu
tento článek popisuje, jak pomocí modulu detekovat jazyky v aplikaci Machine Learning Studio (classic) analyzovat textové zadání a identifikovat jazyk přidružený ke každému záznamu ve vstupu.
Algoritmus detekce jazyka může identifikovat mnoho různých jazyků. Stačí zadat sloupec řetězce, který se má analyzovat, a celkový počet jazyků, které se mají detekovat. Algoritmus provede analýzu každého řádku textu a přiřadí skóre pravděpodobnosti pro každý jazyk. Jazyk v prvním sloupci výsledek je jazyk, který získal nejvyšší skóre.
Jak nakonfigurovat rozpoznávání jazyků
přidejte datovou sadu obsahující text, který chcete analyzovat, do experimentu v Machine Learning studiu (classic). Sloupec s textem, který se má analyzovat, musí být datový typ String.
Datset nemusí obsahovat sloupec popisku; algoritmus detekce jazyka funguje čistě na jazykových funkcích podporovaných jazyků.
Pokud importujete nová data, ujistěte se, že jsou vaše data uložená ve formátu UTF-8. Jiné formáty Unicode nejsou podporovány.
Přidejte modul detekovat jazyky do experimentu a připojte datovou sadu k textu pro detekci jazyka.
V poli textový sloupecvyberte sloupec, který chcete analyzovat.
Pro horní mez počtu jazyků, které se mají detekovat, určete maximální počet jazyků, které se mají detekovat.
Nastavení horní meze počtu jazyků může zlepšit výkon.
Spusťte experiment.
Výsledky
Modul detekovat jazyky vypíše identifikátor jazyka a skóre pro každý řádek.
Například následující tabulka obsahuje ukázkovou analýzu testovacích dat.
První dva sloupce Sloupec1 a popisek jazyka jsou sloupce předávané ze vstupní datové sady. Vzhledem k tomu, že vstupní datová sada byla navržena pro testování modulu, byl již známý jazyk a je uveden ve sloupci popisek.
Zbývající sloupce jsou generovány modulem detekovat jazyky . Pokud jsou shodné jazykové shody, mohou být uvedeny různé jazyky se stanovením skóre pro každý z nich. V tomto případě modul předpovídá pouze jeden jazyk pro každý řádek, a to spolu s skóre pravděpodobnosti pro daný jazyk.
Pokud se modulu nepovede detekovat žádný jazyk s dostatečně vysokým skóre, výsledek (neznámý) s skóre 0 je výstup. Jazyky podporované modulem se ale můžou v průběhu času v průběhu aktualizace rozhraní API změnit.
Sloupec 1 | Popisek jazyka | Sloupec1 – jazyk | Iso6391 jazyk | Skóre jazyka Sloupec1 Iso6391 |
---|---|---|---|---|
Jednalo se o skvělou Hotel s příjemnými pracovníky a dobrými službami. | Angličtina | angličtina | en | 100 |
ES War Ein wunderbares Hotel mit freundlichem Personal und Guter Service | Němčina | Němčina | & | 100 |
C'est un magnifique Hôtel avec sympathique et un Service de qualité | Francouzština | Francouzština | FR | 100 |
Det var et dejligt Hotel med et venligt Personal The og jsou Service | Dánština | Dánština | belgick | 100 |
VA magnífic hotelového AMB bez osobního amableu, kterou mám na šťastnosti | Katalánština | Katalánština | určen | 92,30769348 |
とても素敵なホテルで vyberte Joomla スタッフは親切で vyberte Joomla サービスもよかった | Japonština | Neznámý | 0 | |
mebpa'mey naQ, popisný QaQ chavmoH je | Klingon | Francouzština | FR | 77,5 |
Příklady
Příklady použití modulu detekovat jazyky v experimentu najdete v Azure AI Gallery:
- Filtrovat názvy filmů podle jazyka: detekuje jazyk použitý v názvech filmů a potom pomocí identifikátoru jazyka rozdělí datovou sadu do angličtiny i v neanglickém videu.
Technické poznámky
obecnou představu o jazycích, které mohou být zjištěny, najdete v tématu Překladač Bing.
je možné zjistit mnoho dalších jazyků, než Machine Learning aktuálně podporuje pokročilou analýzu textu. Pro filtrování výsledků, které odesíláte do jiných modulů, které vyžadují zpracování specifické pro konkrétní jazyk, doporučujeme použít výsledky zjišťování jazyků .
základní jazykové služby používá i služba Analýza textu ve službě Azure Cognitive Services.
Očekávané vstupy
Název | Typ | Description |
---|---|---|
Datová sada | Tabulka dat | Vstup |
Parametry modulu
Název | Typ | Rozsah | Volitelné | Výchozí | Description |
---|---|---|---|---|---|
Horní mez počtu jazyků k rozpoznání | Integer | [1;184] | Vyžadováno | 1 | Horní mez počtu jazyků, které se má detekovat. |
Textový sloupec | Výběr sloupce | Vyžadováno | Název nebo jeden index textového sloupce. |
Výstupy
Název | Typ | Description |
---|---|---|
Datová sada výsledků | Tabulka dat | Výsledek |
Výjimky
Výjimka | Description |
---|---|
Chyba 0003 | K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný. |
Chyba 0010 | K výjimce dochází v případě, že vstupní datové sady mají názvy sloupců, které by se měly shodovat, ale nikoli. |
Chyba 0016 | K výjimce dochází v případě, že vstupní datové sady předané modulu by měly mít kompatibilní typy sloupců, ale nikoli. |
Chyba 0008 | K výjimce dochází, pokud parametr není v rozsahu. |
Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.
Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.