Umiejętność poznawcza wyodrębniania kluczowych fraz
Umiejętność wyodrębniania kluczowych fraz ocenia tekst bez struktury, a dla każdego rekordu zwraca listę kluczowych fraz. Ta umiejętność korzysta z kluczowych modeli uczenia maszynowego fraz udostępnionych przez język sztucznej inteligencji platformy Azure.
Ta funkcja jest przydatna, jeśli musisz szybko zidentyfikować główne punkty rozmowy w rekordzie. Na przykład, biorąc pod uwagę tekst wejściowy "Jedzenie było pyszne i było wspaniałe personel", usługa zwraca "jedzenie" i "wspaniały personel".
Uwaga
Ta umiejętność jest powiązana z usługami azure AI i wymaga rozliczanego zasobu dla transakcji, które przekraczają 20 dokumentów na indeksator dziennie. Wykonanie wbudowanych umiejętności jest naliczane za istniejące usługi Azure AI z płatnością zgodnie z rzeczywistym użyciem.
@odata.type
Microsoft.Skills.Text.KeyPhraseExtractionSkill
Limity danych
Maksymalny rozmiar rekordu powinien wynosić 50 000 znaków mierzonych przez String.Length
wartość . Jeśli musisz podzielić dane przed wysłaniem ich do modułu wyodrębniania kluczowych fraz, rozważ użycie umiejętności Dzielenie tekstu. Jeśli używasz umiejętności dzielenia tekstu, ustaw długość strony na 5000, aby uzyskać najlepszą wydajność.
Parametry umiejętności
W parametrach jest rozróżniana wielkość liter.
Dane wejściowe | opis |
---|---|
defaultLanguageCode |
(Opcjonalnie) Kod języka, który ma być stosowany do dokumentów, które nie określają jawnie języka. Jeśli nie określono domyślnego kodu języka, język angielski (en) jest używany jako domyślny kod języka. Zobacz pełną listę obsługiwanych języków. |
maxKeyPhraseCount |
(Opcjonalnie) Maksymalna liczba fraz kluczowych do utworzenia. |
modelVersion |
(Opcjonalnie) Określa wersję modelu do użycia podczas wywoływania interfejsu API fraz kluczowych. Wartość domyślna to najnowsza dostępna, jeśli nie zostanie określona. Zalecamy, aby nie określać tej wartości, chyba że jest to konieczne. |
Dane wejściowe umiejętności
Dane wejściowe | opis |
---|---|
text |
Tekst do przeanalizowania. |
languageCode |
Ciąg wskazujący język rekordów. Jeśli ten parametr nie zostanie określony, domyślny kod języka jest używany do analizowania rekordów. Zobacz pełną listę obsługiwanych języków. |
Dane wyjściowe umiejętności
Wyjście | opis |
---|---|
keyPhrases |
Lista kluczowych fraz wyodrębnionych z tekstu wejściowego. Kluczowe frazy są zwracane w kolejności ważności. |
Przykładowa definicja
Rozważmy rekord SQL, który ma następujące pola:
{
"content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
"language": "en"
}
Następnie definicja umiejętności może wyglądać następująco:
{
"@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "keyPhrases",
"targetName": "myKeyPhrases"
}
]
}
Przykładowe dane wyjściowe
W poprzednim przykładzie dane wyjściowe umiejętności są zapisywane w nowym węźle w wzbogaconym drzewie o nazwie "document/myKeyPhrases", ponieważ jest to targetName
określone przez nas. Jeśli nie określisz elementu targetName
, będzie to "document/keyPhrases".
document/myKeyPhrases
[
"world’s glaciers",
"huge rivers of ice",
"Canadian Rockies",
"iconic landscapes",
"Mount Everest region",
"Continued warming"
]
Możesz użyć wartości "document/myKeyPhrases" jako danych wejściowych do innych umiejętności lub jako źródła mapowania pól wyjściowych.
Ostrzeżenia
Jeśli podasz nieobsługiwany kod języka, zostanie wygenerowane ostrzeżenie, a frazy kluczowe nie będą wyodrębniane. Jeśli tekst jest pusty, zostanie wygenerowane ostrzeżenie. Jeśli tekst jest większy niż 50 000 znaków, zostanie przeanalizowanych tylko pierwszych 50 000 znaków i zostanie wyświetlone ostrzeżenie.