Udostępnij za pośrednictwem


Wyodrębnianie cech n-gramów z tekstu

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Tworzy funkcje słownika N-Gram i na nich zaznacza cechy

Kategoria: analiza tekstu

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule wyjaśniono, jak używać modułu Wyodrębnianie funkcji N-Gram z tekstu w programie Machine Learning Studio (wersja klasyczna) w celu cechowanie tekstu i wyodrębnianie tylko najważniejszych informacji z długich ciągów tekstowych.

Moduł ten działa przez utworzenie słownika n-gramy z kolumny z wolnym tekstem, który określisz jako dane wejściowe. Moduł stosuje różne metryki informacyjne do listy n-gramów, aby zmniejszyć wymiarowość danych i zidentyfikować n-gramy, które mają najwięcej informacji.

Jeśli już utworzono słownictwo n-gramaty, możesz zaktualizować jego statystyki lub scalić je w nowych terminach przy użyciu wybranego algorytmu wag.

Ponieważ ten moduł obsługuje cechowanie z n-gramów, może być również używany podczas oceniania.

Jak skonfigurować funkcje wyodrębniania n-gramów z tekstu

Ten moduł obsługuje następujące scenariusze tworzenia, aktualizowania lub stosowania słownika n-gramowego:

  • Opracowujesz nowy model przy użyciu kolumny z bezpłatną kolumną tekstową i chcesz wyodrębnić cechy tekstowe wyłącznie na podstawie danych wejściowych. Zobacz instrukcje.

  • Masz istniejący zestaw funkcji tekstowych i chcesz zaktualizować wagi przez przetwarzanie nowych danych wejściowych tekstu. Zobacz instrukcje.

  • Generujesz wyniki z modelu predykcyjnego i musisz wygenerować dane wejściowe tekstu oraz używać ich w słowniku n-gramowym w ramach procesu oceniania. Zobacz instrukcje.

Przykładowego eksperymentu można użyć jako odwołania.

Tworzenie nowego słownika n-gramowego z kolumny tekstowej

  1. Dodaj moduł Extract N-Gram Features from Text (Wyodrębnianie cech N-Grama z tekstu) do eksperymentu i połącz zestaw danych, który zawiera tekst, który chcesz przetworzyć.

  2. W polu Kolumna tekstowa wybierz kolumnę typu ciąg zawierającą tekst, który chcesz wyodrębnić.

    Domyślnie moduł wybiera wszystkie kolumny ciągów. Jednak ze względu na to, że wynik jest pełny, może być konieczne przetwarzanie pojedynczej kolumny na raz.

  3. W przypadku trybu słownictwa wybierz pozycję Utwórz , aby wskazać, że tworzysz nową listę funkcji n-gramowych.

    Aby uzyskać informacje na temat aktualizowania istniejącego zestawu funkcji n-gramowych, zobacz tę sekcję.

  4. W przypadku rozmiaru N-grama wpisz liczbę, która wskazuje maksymalny rozmiar n-gramów do wyodrębnienia i przechowywania.

    Jeśli na przykład wpiszemy 3, zostaną utworzone unigramy, bigramy i trygramy.

  5. W przypadku rozmiaru K-Skip wpisz maksymalną liczbę znaków, które mogą się różnić podczas identyfikowania wariantów n-gramowych. Jeśli wartość k jest ustawiona na 0, n-gramy można utworzyć tylko z unikatowej, ciągłej sekwencji znaków.

    Załóżmy na przykład, że słownik zawiera unigram "computer". Wartość k 0 oznacza, że "komputer" jest jedynym prawidłowym unigramem. Jeśli zwiększysz wartość k do 1, możesz pominąć jeden znak interwencji, co pozwala znaleźć więcej podobnych sekwencji. Pomiń gram o wartości k 1 różniłby się o jeden znak od unigramu o wartości 0 k. W związku z tym zarówno "konputer", jak i "compuuter" są traktowane jako część tego samego wpisu słownika co "komputer". Ustawienie wartości k na wartość 2 byłoby zgodne z jeszcze bardziej nieprosiącymi wyrazami.

    Aby uzyskać więcej informacji na temat sposobu pominięcia gramatyczne są używane w analizie tekstu, zobacz ten dokument: Generowanie kandydatów i inżynieria cech dla nadzorowanej normalizacji leksykacznej

  6. Opcja , funkcja wagi, jest wymagana tylko w przypadku scalania lub aktualizowania słownictwa. Określa sposób, w jaki terminy w tych dwóch słownictwach i ich wyniki powinny być ważone względem siebie nawzajem.

  7. W przypadku minimalnej długości słowa wpisz minimalną długość ciągów, które mogą być analizowane.

    Załóżmy na przykład, że minimalna długość słowa została ustawiona na 3 (wartość domyślna), a jedno dane wejściowe zawierało jedno słowo, a drugie zawierało krótki tekst, taki jak "dobre miejsce". Oba wiersze zostaną zignorowane.

  8. W przypadku maksymalnej długości słowa wpisz maksymalną liczbę liter, które mogą być używane w dowolnym pojedynczym słowie w n-gramie.

    Domyślnie dozwolone jest maksymalnie 25 znaków na wyraz lub token. Wyrazy dłuższe niż te są usuwane przy założeniu, że mogą to być sekwencje dowolnych znaków, a nie rzeczywiste elementy leksykalne.

  9. Dla minimalnej n-gramowej częstotliwości bezwzględnej dokumentu wpisz liczbę, która wskazuje minimalne wystąpienia wymagane dla dowolnego pojedynczego słowa lub tokenu, które mają zostać uwzględnione w słowniku n-gramowym.

    Jeśli na przykład użyjemy wartości domyślnej 5, każdy n-gram lub skip-gram musi wystąpić co najmniej pięć razy w corpus, aby został uwzględniony w słowniku n-gram.

  10. W przypadku wartości Maksymalny n-gramowy stosunek dokumentu wpisz liczbę, która reprezentuje ten współczynnik: liczbę wierszy, które zawierają konkretny n-gram, w stosunku do liczby wierszy w całym corpus.

    Na przykład współczynnik 1 oznacza, że nawet jeśli określony n-gram znajduje się w każdym wierszu, n-gram może zostać dodany do słownika n-grama. Najczęściej słowo, które występuje w każdym wierszu, jest uznawane za słowo szumu i zostanie usunięte. Aby odfiltrować słowa szumu zależne od domeny, spróbuj zmniejszyć ten współczynnik.

    Ważne

    Szybkość występowania określonych wyrazów nie jest jednolity, ale różni się w zależności od dokumentu. Jeśli na przykład analizujesz komentarze klientów dotyczące określonego produktu, nazwa produktu może być bardzo duża i zbliżyć się do słowa szumu, ale może być znaczącym terminem w innych kontekstach.

  11. Wybierz opcję Detect out-of-vocabulary rows (Wykryj wiersze poza słownictwem), jeśli chcesz wygenerować wskaźnik dla wszystkich wierszy zawierających wyrazy, które nie znajdują się w słownictwie n-grama, które są nazywane słowami "poza słownictwem" (OOV).

    Wszystkie leksykony są skończone; W związku z tym corpus tekstowy niemal gwarantuje dołącznie wyrazów, które nie znajdują się w słowniku leksykonu lub n-grama. Jednak takie słowa mogą mieć różne skutki dla modeli językowych, w tym wyższe wskaźniki błędów w porównaniu ze słowami ze słownictwem (IV). W zależności od domeny te słowa OOV mogą reprezentować ważne słowa zawartości.

    Identyfikując wiersze zawierające te wyrazy, można skompensować skutki tych terminów lub oddzielnie obsłużyć terminy i powiązane wiersze.

  12. Wybierz opcję Oznacz początek zdania, aby dodać specjalną sekwencję znaków, która wskazuje początek zdania w słowniku n-gramowym. Poprzedzanie n-gramów, które zaczynają się od zdania znakiem specjalnym, jest typowe w analizie tekstu i może być przydatne podczas analizowania granic kierunkowych.

    Usługa Azure ML Studio (klasyczna) wstawia symbol |||. Nie można określić znaku niestandardowego.

  13. Wybierz opcję Normalize n-gram feature vectors (Normalizacja wektorów cech n-grama ), jeśli chcesz znormalizować wektory cech. Gdy to zrobisz, każdy wektor cech n-grama jest dzielony przez normę L2.

    Normalizacja jest używana domyślnie.

  14. Ustaw opcję Użyj wyboru funkcji opartej na filtrze na wartość Prawda , jeśli chcesz włączyć dodatkowe opcje zarządzania rozmiarem wektora funkcji tekstu.

    • Wybór cech może być pomocny w zmniejszeniu wymiarów n-gramów.
    • Jeśli nie zastosujemy wyboru filtru, tworzone są wszystkie możliwe n-gramy, zwiększając pokrycie kosztem dłuższego i prawdopodobnie obejmującego wiele rzadkich terminów.
    • W małym corpus za pomocą funkcji wybór może znacznie zmniejszyć liczbę tworzona terminy.
    • Aby uzyskać więcej informacji, zobacz Filter Based Feature Selection (Wybór funkcji na podstawie filtru).

    Jeśli używasz wyboru funkcji, musisz wybrać metodę z listy rozwijanej Metoda oceniania funkcji:

    • PearsonCorrelation: oblicza korelację Pearsona na podstawie wartości kolumny etykiety i wektora tekstu.
    • MutualInformation: Oblicza wynik wzajemnej informacji na podstawie wartości kolumny etykiety i wektora tekstu.
    • KendallCorrelation: Oblicza korelację Kendalla na podstawie wartości kolumny etykiety i wektora tekstu.
    • SpearmanCorrelation: oblicza korelację Spearmana na podstawie wartości kolumny etykiety i wektora tekstu.
    • ChiSquared: używa metody chi kwadrat, aby obliczyć korelację między wartością kolumny etykiety a wektorem tekstowym.
    • FisherScore: oblicza wynik dla wartości kolumny etykiety i wektora tekstu.
    • Wybór funkcji oparty na liczbach: tworzy nowe cechy na podstawie liczby wartości. Ta metoda nie wymaga kolumny etykiety.

    W zależności od wybranej metody ustaw jedną z następujących opcji:

    • Liczba żądanych funkcji: wymagana, jeśli używasz dowolnej metody wyboru funkcji innej niż wybór funkcji oparty na liczbie.

      W procesie wyboru funkcji wszystkie n-gramy uzyskają ocenę funkcji, a n-gramy są klasyfikowane według oceny. Wartość ustawiona w tym miejscu określa, ile z najbardziej wysoko sklasyfikowanych funkcji jest wyjściowych. N-gramy z niższymi wynikami funkcji są odrzucane.

    • Minimalna liczba elementów innych niż zero: wymagana, jeśli używasz wyboru funkcji na podstawie liczby.

      Wpisz liczbę całkowitą, która reprezentuje minimalną liczbę wystąpień wymaganych do tabulacji liczby dla potencjalnej funkcji.

  15. Uruchom eksperyment.

    Zobacz tę sekcję , aby uzyskać wyjaśnienie wyników i ich formatu.

Aktualizowanie istniejącego słownika n-gramowego lub scalanie słowników

  1. Dodaj moduł Extract N-Gram Features from Text (Wyodrębnij funkcje N-Grama z tekstu) do eksperymentu i połącz zestaw danych, który ma tekst, który chcesz przetworzyć, z portem zestawu danych.

  2. W polu Kolumna tekstowa wybierz kolumnę tekstową zawierającą tekst, który chcesz cechować. Domyślnie moduł wybiera wszystkie kolumny typu ciąg. Aby uzyskać najlepsze wyniki, przetwarzaj pojedynczą kolumnę na raz.

  3. Dodaj zapisany zestaw danych zawierający wcześniej wygenerowany słownik n-gramowy i połącz go z portem słownictwa Input . Możesz również połączyć dane wyjściowe słownictwa Wynik nadrzędnego wystąpienia modułu Extract N-Gram Features from Text (Wyodrębnianie funkcji N-Grama z tekstu).

    Aby scalić lub zaktualizować słownictwo, schemat słownictwa wejściowego musi dokładnie odpowiadać oczekiwanej formie. Nie usuwaj żadnych kolumn ani nie dodawaj żadnych kolumn do słownictwa wejściowego.

  4. W przypadku trybu słownictwa wybierz jedną z następujących opcji aktualizacji z listy rozwijanej:

    • ReadOnly: reprezentuje corpus wejściowy pod względem słownictwa wejściowego. Oznacza to, że zamiast obliczania częstotliwości terminowych z nowego zestawu danych tekstowych (po lewej stronie danych wejściowych) wagi n-gramowe ze słownictwa wejściowego są stosowane w taki sposób, jak jest.

      Porada

      Użyj tej opcji podczas oceniania klasyfikatora tekstu.

    • Aktualizacja: tworzy nowe n-gramowe słownictwo z corpus wejściowych i scala je ze słownictwem wejściowym. Innymi słowy, możesz dodać nowe wpisy do utworzonego słownictwa ze słownictwa wejściowego lub zaktualizować istniejące wpisy.

      Porada

      Użyj tej opcji do przyrostowych aktualizacji słownictwa z przychodzącymi partiami danych.

    • Scalanie: generuje nowe n-gramowe słownictwo z corpus wejściowych.

      Ta opcja jest przydatna, jeśli używasz słownictwa w tle jako danych wejściowych do modułu i chcesz zmniejszyć wagę słów stop. Innymi słowy, każdemu wpisowi, który ma wysoką ocenę częstotliwości dokumentu w słownictwie w tle, zostanie przypisany niższy odwrotny wynik częstotliwości dokumentu w utworzonym słownictwie.

      Porada

      Użyj tej opcji, jeśli nie chcesz dodawać nowych wpisów do utworzonego słownictwa z danych wejściowych i chcesz dostosować tylko wyniki istniejących wpisów.

  5. Opcja Wybierz funkcję ważoną jest wymagana w przypadku scalania lub aktualizowania słownictwa. Funkcja ważona określa sposób, w jaki wyniki funkcji DF i IDF w tych dwóch słownictwach powinny być ważone względem siebie:

    • Waga binarna: przypisuje wartość obecności binarnej do wyodrębnianych n-gramów. Innymi słowy, wartość każdego n-grama wynosi 1, jeśli istnieje w danym dokumencie, i 0 w przeciwnym razie.
    • Waga TF: przypisuje wynik term-frequency score (TF) do wyodrębnianych n-gramy. Wartością każdego n-grama jest częstotliwość jej występowania w danym dokumencie.
    • Waga funkcji IDF: przypisuje odwrotny wynik częstotliwości dokumentu (IDF) do wyodrębnione n-gramy. Wartość każdego n-grama to dziennik rozmiaru corpus podzielony przez częstotliwość występowania w całym corpus. Czyli: IDF = log of corpus_size / document_frequency
    • Waga TF-IDF: przypisuje częstotliwość/odwrotność oceny częstotliwości dokumentu (TF/IDF) do wyodrębnianego n-grama. Wartość każdego n-grama to jego wynik TF pomnożony przez jego wynik IDF.
    • Graph waga: przypisuje wynik do wyodrębnianego n-grama na podstawie klasyfikacji wykresu TextRank. TextRank to oparty na grafie model klasyfikacji do przetwarzania tekstu. Graph oparte na algorytmach klasyfikacji są zasadniczo sposobem podejmowania decyzji o ważności na podstawie informacji globalnych. Aby uzyskać więcej informacji, zobacz TextRank: Bringing Order into Text (TextRank: wprowadzanie kolejności w tekstach ), a w tym przypadku paul Tarau i Paul Mihalcea.
  6. Wszystkie inne opcje można znaleźć w opisach właściwości w poprzedniej sekcji.

  7. Uruchom eksperyment.

    Zobacz tę sekcję , aby uzyskać wyjaśnienie wyników i ich formatu.

Ocena lub publikowanie modelu, który używa n-grama

  1. Skopiuj moduł Extract N-Gram Features from Text (Wyodrębnianie funkcji N-Grama z tekstu ) z przepływu danych szkoleniowych do przepływu danych oceniania.

  2. Połączenie dane wyjściowe słownictwa wynikowego z przepływu danych szkoleniowych do słownictwa wejściowego na przepływie danych oceniania.

  3. W przepływie pracy oceniania zmodyfikuj moduł Extract N-Gram Features from Text (Wyodrębnianie funkcji N-Grama z tekstu) i wprowadzaj te zmiany, pozostawiając wszystkie inne takie same:

    • Ustaw parametr Tryb słownictwa na wartość ReadOnly.

    • Zmień opcję Użyj wyboru funkcji na podstawie filtru naFalse.

  4. Aby opublikować eksperyment, zapisz słownictwo wyników jako zestaw danych.

    Następnie połącz zapisany zestaw danych z modułem Extract N-Gram Features from Text (Wyodrębnianie funkcji N-Grama z tekstu) na wykresie oceniania.

Wyniki

Moduł Wyodrębnianie funkcji N-Gram z tekstu tworzy dwa typy danych wyjściowych:

  • Zestaw danych wyników: podsumowanie przeanalizowanego tekstu wraz z n-gramami, które zostały wyodrębnione. Kolumny, które nie zostały wybrane w opcji Kolumna tekstowa , są przekazywane do danych wyjściowych. Dla każdej kolumny tekstu, który analizujesz, moduł generuje następujące kolumny:

    • NgramsString: ciąg zawierający wszystkie unikatowe n-gramy.
    • NumUniqueNgrams: liczba n-gramów wyodrębniona przy użyciu określonych właściwości.
    • Rozrzedna macierz wystąpień n-gramowych: moduł generuje kolumnę dla każdego n-grama znalezionego w całkowitych corpus i dodaje wynik w każdej kolumnie, aby wskazać wagę n-grama dla tego wiersza.
  • Słownictwo wynikowe: słownictwo zawiera rzeczywisty słownik n-gramowy wraz z terminem frequency scores, które są generowane w ramach analizy. Zestaw danych można zapisać do ponownego użycia z innym zestawem danych wejściowych lub do późniejszej aktualizacji. Możesz również zaktualizować wyniki lub ponownie użyć słownictwa do modelowania i oceniania.

Przykładowe wyniki

Aby zilustrować sposób korzystania z wyników, w poniższym krótkim przykładzie użyto zestawu danych Amazon Book Review dostępnego w programie Studio (wersja klasyczna). Zestaw danych został odfiltrowany w celu pokazania tylko recenzji z wynikiem 4 lub 5 oraz przeglądów o długości ciągu 300 znaków.

Z tego zestawu danych została wybrana krótka recenzja zawierająca tylko 92 wyrazy. W tym miejscu nazwa autora została zastąpiona , Xxx a tytuł książki został zastąpiony przez Yyy:

"Xxx at his best ! Yyy is one of Xxx's best yet! I highly recommend this novel."

Zestaw danych wyników dla przykładowego tekstu przeglądu

W tym przykładzie moduł wygenerował następujące kolumny:

  • NumUniqueNgrams: w przypadku tego 92 przeglądu słów przy użyciu ustawień domyślnych z przykładowej recenzji wyodrębniono 11 n-gramów.

    Gdy długość n-grama została zwiększona do 3, a wartość skip-gram ustawiona na 1, znaleziono 15 n-gramów.

    Po zastosowaniu wyboru funkcji do wartości domyślnej nie wyodrębniono żadnych n-gramy.

  • NgramsString: Z ustawieniami domyślnymi zostały zwrócone te n-gramy: ["jego","best","one","highly","recommend","this","novel","his_best","highly_recommend","recommend_this","this_novel"]

    Przy długości n-grama 3 i wartości skip-grama 1 te n-gramy zostały zwrócone: ["his", "best","one","highly","recommend","this","novel","his_best","highly_recommend","recommend_this","this_novel","best_one","one_best","highly_this","highly_recommend_this"]

  • Rozrzednia macierz wystąpień n-gramowych

    W tym konkretnym przeglądzie wyniki obejmowały następujące kolumny:

    ReviewText. [zarządza] ReviewText. [and_highly] ReviewText. [wysoce] ReviewText. [highly_recommend]
    0 0 0.301511 0.301511

    Porada

    Jeśli masz problemy z wyświetlaniem określonej kolumny, dołącz moduł Select Columns in Dataset (Wybieranie kolumn w zestawie danych) do danych wyjściowych, a następnie użyj funkcji wyszukiwania, aby filtrować kolumny według nazwy.

Słownictwo wyników dla przykładowego tekstu przeglądu

Słownictwo zawiera rzeczywisty słownik n-gramowy wraz z terminem frequency scores, które są generowane w ramach analizy. Zestaw danych można zapisać do ponownego użycia z innym zestawem danych wejściowych lub do późniejszej aktualizacji. Wyniki DF iIDF są generowane niezależnie od innych opcji. Gdy łączysz słownictwo, te przechowywane wartości są używane jako dane wejściowe dla wybieranych funkcji wag.

  • Identyfikator: identyfikator wygenerowany dla każdego unikatowego n-grama.
  • Ngram: n-gram. Spacje lub inne separatory wyrazów są zastępowane znakiem podkreślenia.
  • DF: termin częstotliwość oceny n-grama w oryginalnych corpus.
  • IDF: odwrotny wynik częstotliwości dokumentu dla n-grama w oryginalnym corpus.

Istnieje możliwość ręcznego zaktualizowania tego zestawu danych; Należy jednak zachować ostrożność, ponieważ można wprowadzać błędy. Na przykład:

  • Jeśli moduł znajdzie zduplikowane wiersze z tym samym kluczem w słownictwie wejściowym, zostanie podniesiony błąd. Upewnij się, że żadne dwa wiersze w słownictwie nie mają tego samego słowa.
  • Schemat wejściowy zestawów danych słownictwa musi być dokładnie taki sam, w tym nazwy kolumn i typy kolumn.
  • Kolumna ID i kolumna wyników DF muszą mieć typ liczby całkowitej.
  • Kolumna IDF musi być typu FLOAT (zmiennoprzecinkowa).

Uwagi techniczne

Zalecamy poeksperymentowanie z różnymi zakresami wartości dla długości n-grama, liczby pominięcia-gramy i użycia wyboru cech w celu określenia wymiarów corpus tekstu i optymalnego współczynnika cech.

Aby uzyskać więcej informacji na temat n-gramy i pomiń-gramy, zobacz następujące zasoby:

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Dane wejściowe
Słownictwo wejściowe Tabela danych Słownictwo wejściowe

Parametry modułu

Nazwa Typ Zakres Opcjonalne Domyślny Opis
Minimalna liczba elementów innych niż zero Liczba całkowita >= 1 Ma zastosowanie tylko w przypadku korzystania z następującej metody:

Liczba na podstawie
1 Określ liczbę cech do wyprowadzania (dla metody CountBased)
Kolumna tekstowa Wybór kolumny Wymagane StringFeature Nazwa lub jeden indeks kolumny tekstowej
Tryb słownictwa Tryb słownictwa Utwórz

ReadOnly

Aktualizacja

Merge
Wymagane Utwórz Określanie sposobu tworzenia słownictwa n-gramowego na podstawie corpus
Rozmiar N-nagie Liczba całkowita >= 1 Wymagane 1 Wskazanie maksymalnego rozmiaru n-gramów do utworzenia
Rozmiar K-Skip Liczba całkowita >= 0 Wymagane 0 Wskazanie rozmiaru k-skip
Funkcja ważona Funkcja ważona Waga binarna

Waga TF

Waga IDF

Waga TF-IDF

Graph waga
Wymagane Waga binarna Wybierz funkcję wagi do zastosowania do każdej wartości n-grama
Minimalna długość słowa Liczba całkowita >= 1 Wymagane 3 Określ minimalną długość wyrazów, które mają być dołączane do n-grama
Maksymalna długość słowa Liczba całkowita >= 2 Wymagane 25 Określ maksymalną długość wyrazów, które mają być dołączane do n-grama
Minimalna częstotliwość bezwzględna dokumentu n-gramowego Float >= 1,0 Wymagane 5.0 Minimalna częstotliwość bezwzględna dokumentu n-gramowego
Maksymalny współczynnik dokumentu n-gramowego Float >= 0,0001 Wymagane 1.0 Maksymalny współczynnik dokumentu n-gramowego
Wykrywanie wierszy poza słownictwem Wartość logiczna Wymagane true Wykrywanie wierszy, które mają wyrazy, które nie są w słownictwie n-grama (OOV)
Oznaczanie początku zdania Wartość logiczna Wymagane fałsz Wskazuje, czy znak zdań rozpoczęcia powinien zostać dodany do n-grama
Normalizowanie wektorów cech n-gramowych Wartość logiczna Wymagane Normalizowanie wektorów cech n-gramowych. Jeśli wartość true, wektor funkcji n-grama jest dzielony przez normę L2.
Korzystanie z wyboru funkcji na podstawie filtru True False, typ Prawda

Fałsz
Wymagane Prawda Używanie wyboru cech na podstawie filtru w celu zmniejszenia wymiarowości
Metoda oceniania funkcji Scoring, metoda Korelacja Pearsona

Informacje wzajemne

Korelacja Kendalla

Korelacja Spearmana

Chi Squared

Score (Wynik dla połówek)

Liczba na podstawie
Dotyczy tylko wtedy, gdy opcja Użyj wyboru funkcji opartej na filtrze ma wartość True Score (Wynik dla połówek) Wybierz metodę, która ma być stosowana do oceniania
Kolumna docelowa Wybór kolumny Ma zastosowanie w przypadku korzystania z jednej z następujących metod:

Korelacja Pearsona

Informacje wzajemne

Korelacja Kendalla

Korelacja Spearmana

Chi Squared

Score (Wynik dla połówek)
Określanie kolumny docelowej
Liczba żądanych funkcji Liczba całkowita >= 1 Ma zastosowanie w przypadku korzystania z jednej z następujących metod:

Korelacja Pearsona

Informacje wzajemne

Korelacja Kendalla

Korelacja Spearmana

Chi Squared

Score (Wynik dla połówek)
1 Określanie liczby cech, które mają być wyprowadzane w wynikach

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Wyodrębnione cechy
Słownictwo wyników Tabela danych Słownictwo wyników

Zobacz też

Analiza tekstu
Lista modułów Machine Learning A–Z