Sleuteltermen extraheren uit tekst
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
Extraheert sleuteltermen uit de opgegeven tekst
Categorie: Text Analytics
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
Moduleoverzicht
In dit artikel wordt uitgelegd hoe u de module Sleuteltermen extraheren uit tekst in Machine Learning Studio (klassiek) gebruikt om een tekstkolom vooraf te verwerken. Met een kolom met tekst in natuurlijke taal extraheert de module een of meer betekenisvolle woordgroepen. Een woordgroep kan één woord, een samengesteld zelfstandig naamwoord of een modifier plus een zelfstandig naamwoord zijn.
Deze module is een wrapper voor API's voor verwerking van natuurlijke taal voor sleuteltermextractie. De zinnen worden om verschillende redenen geanalyseerd als potentieel zinvol in de context van de zin:
- De zin legt het onderwerp van de zin vast.
- De woordgroep bevat een combinatie van modifier en zelfstandig naamwoord die gevoel aangeven.
Stel bijvoorbeeld dat de geanalyseerde zin is: "Het was een fantastisch hotel om in te blijven, met unieke vriendelijke en vriendelijke medewerkers."
De module Sleuteltermen extraheren uit tekst kan deze sleuteltermen retourneren:
- fantastisch hotel
- vriendelijke medewerkers
- unieke unieke ervaring
Sleuteltermen uit tekst extraheren configureren
Als u sleuteltermen wilt extraheren, moet u een gegevensset verbinden die een tekstkolom bevat.
Voeg de module Sleuteltermen extraheren uit tekst toe aan uw experiment in Machine Learning Studio (klassiek). Verbind vervolgens een gegevensset met ten minste één kolom in volledige tekst.
Gebruik de kolom selector om een kolom van het type tekenreeks te selecteren, waaruit sleuteltermen moeten worden geëxtraheert.
Selecteer bij Taal een taal die moet worden gebruikt bij het analyseren van zinnen. Als u een taal opgeeft, worden alleen zinnen in de doeltaal uitgevoerd.
Als de tekstkolom zinnen in meerdere talen bevat, kiest u de optie Taal geïdentificeerd in kolommen. Er wordt een nieuwe kolom selector weergegeven waarmee u een kolom in uw gegevensset kunt selecteren die een taal-id bevat. De taal-id kan de taalnaam of de Iso6391-cultuur-id zijn. 'Engels' of 'en' is bijvoorbeeld acceptabel.
Tip
Voordat u Sleuteltermen extraheren uit tekst gaat uitvoeren, gebruikt u de module Talen detecteren om de taal in elke rij te identificeren en de id voor u te genereren. Er teert een fout als de kolom taal-id talen bevat die niet worden ondersteund door Sleuteltermen extraheren uit tekst.
Resultaten
De uitvoer van de module is een gegevensset met een kolom met door komma's gescheiden sleuteltermen.
De volgende voorbeeldresultaten zijn bijvoorbeeld voor een invoerset met beoordelingen in meerdere talen:
Sleutelzinnen |
---|
novel,adventure best,best book,adventure story,strip of events,good characters |
primer,personajes,fan,akiezer,isla |
Alle uitvoerzinnen zijn opgenomen in één kolom; er worden geen andere kolommen doorgegeven en er wordt geen id toegevoegd. Als u de uitvoerzinnen echter wilt uitlijnen met de brontekst, kunt u de uitvoertermen opnieuw met de invoer samenvoegen met behulp van de module Kolommen toevoegen.
Met de uitvoer van sleuteltermextractie wordt de taal van afzonderlijke woordgroepen niet gemarkeerd.
Als er een taal is opgenomen die niet wordt ondersteund door de module Sleuteltermen extraheren, teert er een fout (0039). Om fouten te voorkomen, moet u invoertekst met een incompatibele taal-id uitfilteren.
Als er maar weinig rijen met andere talen zijn, kunt u de fout ook voorkomen door de taal-id weg te laten en alle tekst te analyseren met behulp van één taalselectie. Als u dit doet, zijn de resultaten echter erg slecht, omdat volledige zinnen in de andere talen als één sleutelterm kunnen worden uitgevoerd.
Voorbeelden
In het volgende voorbeeld wordt gedemonstreerd hoe u deze module gebruikt om sleuteltermen op te halen en vervolgens een woordwolk op te bouwen op basis van de woordgroepen: Sleuteltermen extraheren en Woordwolk tonen
Zie de Azure AI Gallery voor meer voorbeelden van tekstverwerking met behulp Machine Learning.
Technische opmerkingen
Deze module ondersteunt momenteel de volgende talen:
- Nederlands
- Engels
- Frans
- Duits
- Italiaans
- Spaans
Voor extra talen kunt u overwegen om de api Text Analytics in Azure Cognitive Services. Zie Sleuteltermen extraheren in een Text Analytics
Verwachte invoer
Naam | Type | Description |
---|---|---|
Gegevensset | Gegevenstabel | De tabel met de tekst die moet worden verwerkt. |
Moduleparameters
Naam | Type | Bereik | Optioneel | Standaard | Beschrijving |
---|---|---|---|---|---|
Kolom Cultuurtaal | ColumnSelection | language:Kolom bevat taal | Naam of een op één gebaseerde index van de kolom met informatie over de cultuurtaal | ||
Tekstkolom | ColumnSelection | Vereist | Naam of index op basis van één van de tekstkolom. | ||
Taal | T_Language | Engels, Spaans, Frans, Nederlands, Duits, Italiaans, Kolom bevat taal | Vereist | Engels | Selecteer de taal van de tekst die moet worden verwerkt. |
Uitvoerwaarden
Naam | Type | Description |
---|---|---|
Gegevensset met resultaten | Gegevenstabel | De geëxtraheerde sleuteltermen |
Uitzonderingen
Uitzondering | Description |
---|---|
Fout 0003 | Uitzondering treedt op als een of meer invoer null of leeg zijn. |
Fout 0010 | Uitzondering treedt op als invoersets kolomnamen hebben die wel overeenkomen, maar niet. |
Fout 0016 | Uitzondering treedt op als invoersets die aan de module worden doorgegeven compatibele kolomtypen moeten hebben, maar niet. |
Fout 0008 | Uitzondering treedt op als parameter zich niet binnen het bereik. |
Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).
Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.