Wstępne przetwarzanie tekstu

Artykuł
09/01/2024

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj składnika Preprocess Text, aby wyczyścić i uprościć tekst. Obsługuje te typowe operacje przetwarzania tekstu:

Usuwanie wyrazów zatrzymania
Wyszukiwanie i zastępowanie określonych ciągów docelowych przy użyciu wyrażeń regularnych
Lemmatyzacja, która konwertuje wiele powiązanych wyrazów na pojedynczą formę kanoniczną
Normalizacja wielkości liter
Usuwanie niektórych klas znaków, takich jak liczby, znaki specjalne i sekwencje powtarzających się znaków, takich jak "aaaa"
Identyfikacja i usuwanie wiadomości e-mail i adresów URL

Składnik Preprocess Text obecnie obsługuje tylko język angielski.

Konfigurowanie przetwarzania wstępnego tekstu

Dodaj składnik Preprocess Text do potoku w usłudze Azure Machine Learning. Ten składnik można znaleźć w obszarze analiza tekstu.
Połącz zestaw danych zawierający co najmniej jedną kolumnę zawierającą tekst.
Wybierz język z listy rozwijanej Język .
Kolumna tekstowa do oczyszczenia: wybierz kolumnę, którą chcesz wstępnie przetworzyć.
Usuń słowa zatrzymania: wybierz tę opcję, jeśli chcesz zastosować wstępnie zdefiniowaną listę stopword do kolumny tekstowej.

Listy stopwordów są zależne od języka i dostosowywalne.
Lemmatyzacja: wybierz tę opcję, jeśli chcesz, aby wyrazy były reprezentowane w postaci kanonicznej. Ta opcja jest przydatna do zmniejszenia liczby unikatowych wystąpień innych podobnych tokenów tekstowych.

Proces lemmatyzacji jest bardzo zależny od języka.
Wykryj zdania: wybierz tę opcję, jeśli składnik ma wstawić znacznik granicy zdania podczas przeprowadzania analizy.

Ten składnik używa serii trzech znaków ||| potoku do reprezentowania terminatora zdań.
Wykonaj opcjonalne operacje znajdowania i zastępowania przy użyciu wyrażeń regularnych. Wyrażenie regularne zostanie najpierw przetworzone przed wszystkimi innymi wbudowanymi opcjami.
- Niestandardowe wyrażenie regularne: zdefiniuj wyszukiwany tekst.
- Niestandardowy ciąg zastępczy: zdefiniuj pojedynczą wartość zastępczą.
Normalizuj wielkość liter do małych liter: wybierz tę opcję, jeśli chcesz przekonwertować wielkie litery ASCII na małe litery.

Jeśli znaki nie są znormalizowane, to samo słowo w wielkich i małych literach jest traktowane jako dwa różne wyrazy.
Możesz również usunąć następujące typy znaków lub sekwencji znaków z przetworzonego tekstu wyjściowego:
- Usuń liczby: wybierz tę opcję, aby usunąć wszystkie znaki liczbowe dla określonego języka. Numery identyfikacyjne są zależne od domeny i zależne od języka. Jeśli znaki liczbowe są integralną częścią znanego słowa, liczba może nie zostać usunięta. Dowiedz się więcej w informacjach technicznych.
- Usuń znaki specjalne: użyj tej opcji, aby usunąć wszelkie znaki specjalne inne niż alfanumeryczne.
- Usuń zduplikowane znaki: wybierz tę opcję, aby usunąć dodatkowe znaki we wszystkich sekwencjach powtarzanych przez więcej niż dwa razy. Na przykład sekwencja podobna do "aaaaa" zostanie zredukowana do "aa".
- Usuń adresy e-mail: wybierz tę opcję, aby usunąć dowolną sekwencję formatu <string>@<string>.
- Usuń adresy URL: wybierz tę opcję, aby usunąć dowolną sekwencję zawierającą następujące prefiksy adresów URL: http, , https, ftpwww
Rozwiń kontrakty czasowników: ta opcja dotyczy tylko języków, które używają kontraktów czasowników; obecnie tylko w języku angielskim.

Na przykład, wybierając tę opcję, możesz zastąpić frazę "nie pozostanie tam" ciągiem "nie pozostanie tam".
Normalizuj ukośniki odwrotne do ukośników: wybierz tę opcję, aby zamapować wszystkie wystąpienia elementu \\ na /.
Podziel tokeny na znaki specjalne: wybierz tę opcję, jeśli chcesz podzielić wyrazy na znaki, takie jak &, -i tak dalej. Ta opcja może również zmniejszyć liczbę znaków specjalnych, gdy powtarza się więcej niż dwa razy.

Na przykład ciąg MS---WORD zostanie rozdzielony na trzy tokeny, MS, -i WORD.
Prześlij potok.

Uwagi techniczne

Składnik wstępnego przetwarzania tekstu w programie Studio(klasycznym) i projektancie używają różnych modeli językowych. Projektant korzysta z wielodaniowego modelu CNN wytrenowanego z spaCy. Różne modele dają różne tokenizatory i moduł do rozpoznawania mowy, co prowadzi do różnych wyników.

Poniżej przedstawiono kilka przykładów:

Konfigurowanie	Wynik wyjściowy
Po wybraniu wszystkich opcji Wyjaśnienie: w przypadku przypadków takich jak "3test" w pliku "WC-3 3test 4test", projektant usunie całe słowo "3test", ponieważ w tym kontekście element tagger mowy określa ten token "3test" jako liczbowy, a zgodnie z częścią mowy składnik go usuwa.
`Removing number` Tylko z wybranym wyjaśnieniem: w przypadku przypadków takich jak "3test", "4-EC", dawka tokenizatora projektanta nie dzieli tych przypadków i traktuje je jako całe tokeny. Nie spowoduje to usunięcia liczb w tych słowach.

Możesz również użyć wyrażenia regularnego, aby wyświetlić dostosowane wyniki:

Konfigurowanie	Wynik wyjściowy
Po wybraniu opcji Niestandardowe wyrażenie regularne: `(\s+)(-\|\d+)(\s+)` Niestandardowy ciąg zastępczy: `\1 \2 \3`
W przypadku tylko `Removing number` wybranego niestandardowego wyrażenia regularnego: `(\s+)(-\|\d+)(\s+)` niestandardowy ciąg zastępczy: `\1 \2 \3`

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.

Udostępnij za pośrednictwem

Wstępne przetwarzanie tekstu

Konfigurowanie przetwarzania wstępnego tekstu

Uwagi techniczne

Następne kroki

Opinia

Dodatkowe zasoby