Extrahovat klíčové fráze z textu
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Extrahuje klíčové fráze z daného textu.
kategorie: Analýza textu
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
Přehled modulu
tento článek vysvětluje, jak použít extrakci klíčových frází z textového modulu v Machine Learning studiu (classic) k předběžnému zpracování textového sloupce. V případě textu v přirozeném jazyce, modul extrahuje jednu nebo více smysluplných frází. Frází může být jedno slovo, složené podstatné jméno nebo modifikátor plus podstatné jméno.
Tento modul je obálkou pro rozhraní API pro zpracování přirozeného jazyka pro extrakci klíčových frází. Fráze se analyzují jako potenciálně smysluplné v kontextu věty z různých důvodů:
- Fráze zachytí téma věty.
- Fráze obsahuje kombinaci modifikátoru a podstatného jména, která označuje mínění.
Předpokládejme například, že je analyzovaná věta: "jednalo se o skvělou hotelovou položku s jedinečnými décor a popisnými zaměstnanci."
Extrakce klíčových frází z textového modulu může vracet tyto klíčové fráze:
- milovaný Hotel
- přátelské personál
- jedinečné décor
Jak nakonfigurovat extrakci klíčových frází z textu
Chcete-li extrahovat klíčové fráze, je nutné připojit datovou sadu, která má sloupec textu.
přidejte klíčové fráze extrakce z modulu textu do experimentu v Machine Learning studiu (classic). Pak připojte datovou sadu, která má alespoň jeden fulltextový sloupec.
K výběru sloupce typu řetězec, ze kterého se mají extrahovat klíčové fráze, použijte selektor sloupců.
V možnosti jazykvyberte jazyk, který se má použít při analýze frází. Pokud zadáte jazyk, budou výstupem pouze fráze v cílovém jazyce.
Pokud sloupec text obsahuje fráze v několika jazycích, vyberte možnost jazyk identifikovaný ve sloupcích. Zobrazí se nový selektor sloupců, který umožňuje vybrat sloupec v sadě dat, který obsahuje identifikátor jazyka. Identifikátor jazyka může být buď název jazyka, nebo identifikátor jazykové verze Iso6391. Například jsou přijatelné buď "anglické", nebo "en".
Tip
Před spuštěním extrakce klíčových frází z textupoužijte modul detekovat jazyky k identifikaci jazyka v jednotlivých řádcích a pro vygenerování identifikátoru. Pokud sloupec identifikátor jazyka obsahuje všechny jazyky, které nejsou podporovány, extrahují klíčové fráze z textua vyvolá chybu.
Výsledky
Výstupem modulu je datová sada obsahující sloupec klíčových frází oddělených čárkami.
Například následující příklady výsledků jsou pro vstupní datovou sadu obsahující recenze v několika jazycích:
Klíčové fráze |
---|
nové, nukleární podmořský, dobrý příběh, Avalanche událostí, dobré znaky |
Úvod do Misterio, personajes, ventilátoru, Aventura, Isla |
Všechny výstupní fráze jsou obsaženy v jednom sloupci; nejsou předávány žádné další sloupce a identifikátor není přidán. Pokud však chcete zarovnat výstupní fráze ke zdrojovému textu, můžete pomocí modulu Přidat sloupce znovu kombinovat výstupní fráze se vstupem.
Výstup extrakce klíčových frází neoznačí jazyk jednotlivých frází.
Pokud je zahrnut jazyk, který není podporován modulem pro extrakci klíčových frází , je vyvolána chyba (0039). Aby se předešlo chybám, nezapomeňte odfiltrovat vstupní text s nekompatibilním identifikátorem jazyka.
Pokud je k dispozici příliš málo řádků jiných jazyků, můžete také zabránit chybě vynecháním identifikátoru jazyka a analýzou veškerého textu pomocí jednoho výběru jazyka. Nicméně když to uděláte, výsledky jsou velmi špatné, protože celé věty v jiných jazycích můžou být výstupem jako jedna klíčová fráze.
Příklady
Následující příklad ukazuje, jak tento modul použít k extrakci klíčových frází a následnému sestavení cloudu aplikace Word z frází: extrakce klíčových frází a zobrazení cloudu aplikace Word
Další příklady zpracování textu pomocí Machine Learning najdete v Azure AI Gallery .
Technické poznámky
Tento modul aktuálně podporuje následující jazyky:
- Nizozemština
- Angličtina
- Francouzština
- Němčina
- Italština
- Španělština
v případě dalších jazyků zvažte použití rozhraní Analýza textu API ve službě Azure Cognitive Services. další informace najdete v tématu postup extrakce klíčových frází v Analýza textu
Očekávané vstupy
Název | Typ | Description |
---|---|---|
Datová sada | Tabulka dat | Tabulka obsahující text, který má být zpracován. |
Parametry modulu
Název | Typ | Rozsah | Volitelné | Výchozí | Description |
---|---|---|---|---|---|
Jazyková verze – sloupec jazyka | ColumnSelection | jazyk: sloupec obsahuje jazyk | Název nebo index založený na jednom z nich sloupce obsahujícího informace o jazyku jazykové verze | ||
Sloupec textu | ColumnSelection | Vyžadováno | Název nebo index založený na jednom indexu textového sloupce. | ||
Jazyk | T_Language | Angličtina, španělština, francouzština, holandština, němčina, italština, italština, sloupec obsahuje jazyk | Vyžadováno | Angličtina | Vyberte jazyk textu, který se má zpracovat. |
Výstupy
Název | Typ | Description |
---|---|---|
Datová sada výsledků | Tabulka dat | Extrahované klíčové fráze |
Výjimky
Výjimka | Description |
---|---|
Chyba 0003 | K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný. |
Chyba 0010 | K výjimce dochází v případě, že vstupní datové sady mají názvy sloupců, které by se měly shodovat, ale nikoli. |
Chyba 0016 | K výjimce dochází v případě, že vstupní datové sady předané modulu by měly mít kompatibilní typy sloupců, ale nikoli. |
Chyba 0008 | K výjimce dochází, pokud parametr není v rozsahu. |
Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.
Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.