Alokacja ukrytej zmiennej Dirichleta
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Używanie biblioteki Vowpal Wabbit do wykonywania VW LDA
Kategoria: analiza tekstu
Uwaga
Dotyczy: tylko Machine Learning Studio (klasyczne)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób użycia modułu alokacji Latent Dirichlet w programie Machine Learning Studio (wersja klasyczna) do grupowania tekstu niesklasyfikowanego w inny sposób w wielu kategoriach. Latent Dirichlet Allocation (LDA) jest często używany w przetwarzaniu języka naturalnego (NLP) do znalezienia podobnych tekstów. Innym powszechnym terminem jest modelowanie tematu.
Ten moduł przyjmuje kolumnę tekstu i generuje następujące dane wyjściowe:
Tekst źródłowy wraz z wynikiem dla każdej kategorii
Macierz cech zawierająca wyodrębnione terminy i współczynniki dla każdej kategorii
Przekształcenie, które można zapisać i ponownie stosować do nowego tekstu używanego jako dane wejściowe
Ponieważ ten moduł używa biblioteki Vowpal Wabbit, jest bardzo szybki. Aby uzyskać więcej informacji na temat usługi Vowpal Wabbit, zobacz repozytorium GitHub, które zawiera samouczki i wyjaśnienie algorytmu.
Więcej informacji na temat alokacji Ukrytego Dirichleta (LDA)
Ogólnie rzecz biorąc, LDA nie jest metodą klasyfikacji per se, ale używa metody generowania. Oznacza to, że nie trzeba dostarczać znanych etykiet klas, a następnie wywnioskować wzorców. Zamiast tego algorytm generuje model probabilistyczny, który jest używany do identyfikowania grup tematów. Model probabilistyczny umożliwia klasyfikowanie istniejących przypadków szkoleniowych lub nowych przypadków, które są wprowadzane do modelu jako dane wejściowe.
Model generujący może być preferowany, ponieważ pozwala uniknąć jakichkolwiek silnych założeń dotyczących relacji między tekstem i kategoriami oraz używa tylko rozkładu wyrazów do matematycznie modelowych tematów.
Teoria jest omówiona w tym dokumencie, dostępnym do pobrania w formacie PDF: Latent Dirichlet Allocation: Spasi, Ng i Format
Implementacja w tym module jest oparta na bibliotece Vowpal Wabbit (wersja 8) dla LDA.
Aby uzyskać więcej informacji, zobacz sekcję Uwagi techniczne.
Jak skonfigurować alokację Ukrytego Dirichleta
Ten moduł wymaga zestawu danych, który zawiera kolumnę tekstu nieprzetworzonego lub wstępnie przetworzonego.
Dodaj moduł Alokacja Ukrytego Dirichleta do eksperymentu.
Jako dane wejściowe modułu podaj zestaw danych zawierający co najmniej jedną kolumnę tekstową.
W polu Kolumny docelowe wybierz co najmniej jedną kolumnę zawierającą tekst do przeanalizowania.
Możesz wybrać wiele kolumn, ale muszą one mieć typ danych ciągów.
Ogólnie rzecz biorąc, ponieważ LDA tworzy dużą macierz funkcji z tekstu, zwykle analizuje się pojedynczą kolumnę tekstową.
W polu Liczba tematów do modelowania wpisz liczbę całkowitą z zakresów od 1 do 1000, która wskazuje, ile kategorii lub tematów ma pochodzić od tekstu wejściowego.
Domyślnie jest tworzona 5 tematów.
W przypadku N-gramy określ maksymalną długość N-gramy wygenerowaną podczas wyznaczania wartości skrótu.
Wartość domyślna to 2, co oznacza, że generowane są zarówno bigramy, jak i unigramy.
Wybierz opcję Normalize ( Normalizacja), aby przekonwertować wartości wyjściowe na prawdopodobieństwa. Dlatego zamiast reprezentować przekształcone wartości jako liczby całkowite, wartości w zestawie danych wyjściowych i zestawie danych funkcji zostaną przekształcone w następujący sposób:
Wartości w zestawie danych będą reprezentowane jako prawdopodobieństwo, gdzie
P(topic|document)
.Wartości w macierzy tematu funkcji będą reprezentowane jako prawdopodobieństwo, gdzie
P(word|topic)
.
Wybierz opcję Pokaż wszystkie opcje, a następnie ustaw ją na wartość TRUE, jeśli chcesz wyświetlić, a następnie ustaw dodatkowe zaawansowane parametry.
Te parametry są specyficzne dla implementacji Vowpal Wabbit LDA. Istnieje kilka dobrych samouczków dotyczących LDA w Vowpal Wabbit online, a także oficjalne Vowpal Wabbit Wiki.
Zobacz ten przykład, aby uzyskać przykłady w wersji 8 i użycie programu VW w usłudze Azure ML.
Parametr Bezbłędny. Podaj prawdopodobieństwo wstępne rozrzednia rozkładów tematu. Odpowiada parametrowi VW
lda_rho
. Wartości 1 należy użyć, jeśli spodziewasz się, że rozkład wyrazów jest płaska; tzn. zakłada się, że wszystkie wyrazy są ekwiwalne. Jeśli uważasz, że większość słów wydaje się niedrogo, możesz ustawić ją na znacznie niższą wartość.Parametr alfa. Określ prawdopodobieństwo wstępne dla rozrzedności wag tematu dla dokumentu. Odpowiada parametrowi VW
lda_alpha
.Szacowana liczba dokumentów. Wpisz liczbę, która reprezentuje najlepsze oszacowanie liczby dokumentów (wierszy), które zostaną przetworzone. Dzięki temu moduł może przydzielić tabelę skrótów o wystarczającym rozmiarze. Odpowiada parametrowi
lda_D
w Vowpal Wabbit.Rozmiar partii. Wpisz liczbę, która wskazuje, ile wierszy należy uwzględnić w każdej partii tekstu wysyłanej do usługi Vowpal Wabbit. Odpowiada parametrowi
batch_sz
w Vowpal Wabbit.Początkowa wartość iteracji używanej w harmonogramie aktualizacji uczenia. Określ wartość początkową kursu nauki. Odpowiada parametrowi
initial_t
w Vowpal Wabbit.Moc zastosowana do iteracji podczas aktualizacji. Wskazuje poziom zasilania zastosowany do liczby iteracji podczas aktualizacji online. Odpowiada parametrowi
power_t
w Vowpal Wabbit.Liczba przebiegów danych. Określ, ile razy algorytm będzie przetwarzać dane. Odpowiada parametrowi
epoch_size
w Vowpal Wabbit.
Wybierz opcję Build dictionary of ngrams (Utwórz słownik ngramów ) lub Build dictionary of ngrams prior to LDA (Utwórz słownik ngramów przed lda), jeśli chcesz utworzyć listę n-gramową w początkowym przebiegu przed klasyfikacją tekstu.
Jeśli wcześniej utworzysz słownik początkowy, możesz później użyć słownika podczas przeglądania modelu. Możliwość mapowania wyników na tekst, a nie indeksy liczbowe, jest zwykle łatwiejsza do interpretacji. Zapisywanie słownika będzie jednak trwać dłużej i będzie używać dodatkowego magazynu.
W przypadku słownika Maksymalny rozmiar ngramu wpisz łączną liczbę wierszy, które można utworzyć w słowniku n-gram.
Ta opcja jest przydatna do kontrolowania rozmiaru słownika. Jeśli jednak liczba ngramów w danych wejściowych przekroczy ten rozmiar, mogą wystąpić kolizje.
Uruchom eksperyment. Moduł LDA używa teorii Bayesa, aby określić, które tematy mogą być skojarzone z poszczególnymi wyrazami. Wyrazy nie są skojarzone wyłącznie z żadnymi tematami lub grupami; Zamiast tego każdy n-gram ma wyuczony prawdopodobieństwo, że będzie skojarzony z dowolną odnalezioną klasą.
Wyniki
Moduł ma dwa dane wyjściowe:
Przekształcony zestaw danych: zawiera tekst wejściowy i określoną liczbę odnalezionych kategorii wraz z wynikami dla każdego przykładu tekstu dla każdej kategorii.
Macierz tematu funkcji: kolumna po lewej stronie zawiera funkcję wyodrębnianego tekstu i istnieje kolumna dla każdej kategorii zawierająca wynik dla tej funkcji w tej kategorii.
Aby uzyskać szczegółowe informacje, zobacz Przykład wyników LDA.
Przekształcanie LDA
Ten moduł zawiera również dane wyjściowe przekształcenia, które stosuje LDA do zestawu danych, jako interfejs ITransform.
Możesz zapisać to przekształcenie i ponownie użyć go dla innych zestawów danych. Może to być przydatne, jeśli wytrenowaliśmy się na dużych corpus i chcesz ponownie użyć współczynników lub kategorii.
Uściślanie modelu LDA lub wyników
Zazwyczaj nie można utworzyć pojedynczego modelu LDA spełniającego wszystkie potrzeby, a nawet model zaprojektowany dla jednego zadania może wymagać wielu iteracji w celu zwiększenia dokładności. Zalecamy wypróbowanie wszystkich tych metod w celu ulepszenia modelu:
- Zmienianie parametrów modelu
- Używanie wizualizacji do zrozumienia wyników
- Uzyskiwanie opinii ekspertów w różnych tematach w celu upewnienia się, czy wygenerowane tematy są przydatne.
Miary jakościowe mogą być również przydatne do oceny wyników. Aby ocenić wyniki modelowania tematu, rozważ:
- Dokładność — czy podobne elementy są bardzo podobne?
- Różnorodność — czy model może rozróżniać podobne elementy, gdy jest to wymagane w przypadku problemu biznesowego?
- Skalowalność — czy działa w wielu kategoriach tekstowych, czy tylko w wąskiej domenie docelowej?
Dokładność modeli opartych na technologii LDA można często poprawić, używając przetwarzania języka naturalnego do czyszczenia, podsumowywanego i upraszczania lub kategoryzowania tekstu. Na przykład następujące techniki, wszystkie obsługiwane w Machine Learning, mogą zwiększyć dokładność klasyfikacji:
Zatrzymywanie usuwania wyrazów
Normalizacja przypadku
Lematyzacja lub analiza sybingowa
Rozpoznawanie jednostek nazwanych
Aby uzyskać więcej informacji, zobacz Wstępne przetwarzanie tekstui rozpoznawanie jednostek nazwanych.
W programie Studio (klasycznym) można również używać bibliotek języka R lub Python do przetwarzania tekstu: Wykonywanie skryptu języka R, Wykonywanie skryptu języka Python
Przykłady
Przykłady analizy tekstu można znaleźć w tych eksperymentach w Azure AI Gallery:
- Wykonywanie skryptu języka Python: używa przetwarzania języka naturalnego w języku Python do czyszczenia i przekształcania tekstu.
Aby uzyskać szczegółowe informacje i przykład na podstawie tekstu recenzji klienta, zobacz Understanding LDA Results (Opis wyników LDA).
Przykładowe wyniki LDA
Aby zilustrować sposób działania modułu alokacji Latent Dirichlet, poniższy przykład stosuje LDA z ustawieniami domyślnymi do zestawu danych przeglądu książki dostępnego w programie Machine Learning Studio (wersja klasyczna).
Zestaw danych źródłowych
Zestaw danych zawiera kolumnę klasyfikacji oraz pełny tekst komentarza dostarczony przez użytkowników.
W tej tabeli przedstawiono tylko kilka reprezentatywnych przykładów.
tekst |
---|
Ta książka ma swoje dobre punkty. Jeśli coś, pomaga w dorzucie wyrazów, których potrzebujesz od przełożonego.... |
Przyznaję, że ta książka nie została zakończona. Znajomy polecił mi ją, ponieważ mam problemy z braku usypianiem... |
Źle napisanych próbowano przeczytać tę książkę, ale znalazłem ją tak zakrzywieloną i źle napisaną, że nie mam frustracji. ... |
Od czasu zapożyczania od znajomych kopii o słuchu psów, którzy kilka lat temu ją przekazywania, nie udało mi się uzyskać praktycznej pracy nad tą książką, która stała się ulubionym miejscem o krótkim czasie życia |
Wykres tej książki był interesujący i mógł być dobrą książką. Niestety tak nie było. Głównym problemem dla mnie było to, że ... |
Podczas przetwarzania moduł alokacji Latent Dirichlet czyści i analizuje tekst na podstawie parametrów, które określisz. Na przykład może automatycznie tokenizować tekst i usuwać znaki interpunktowe, a jednocześnie znaleźć funkcje tekstowe dla każdego tematu.
Przekształcony zestaw danych LDA
W poniższej tabeli przedstawiono przekształcony zestaw danych oparty na przykładzie recenzji książki. Dane wyjściowe zawierają tekst wejściowy i określoną liczbę odnalezionych kategorii wraz z wynikami dla każdej kategorii.
Nazwa filmu | Temat 1 | Temat 2 | Temat 3 | Temat 4 | Temat 5 |
---|---|---|---|---|---|
Ta książka ma swoje dobre punkty | 0.001652892 | 0.001652892 | 0.001652892 | 0.001652892 | 0.9933884 |
znajomy polecił mi to | 0.00198019 | 0.001980198 | 0.9920791 | 0.001980198 | 0.001980198 |
wypróbowano przeczytanie tej książki | 0.002469135 | 0.002469135 | 0.9901233 | 0.002469135 | 0.002469135 |
zapożycz go od znajomego | 0.9901232 | 0.002469135 | 0.002469135 | 0.002469135 | 0.002469135 |
wykres tej książki był interesujący | 0.001652892 | 0.001652892 | 0.9933884 | 0.001652892 | 0.001652892 |
W tym przykładzie umyliśmy wartość domyślną 5 dla ustawienia Liczba tematów do modelowania. W związku z tym moduł LDA tworzy pięć kategorii, które można założyć, że będą odpowiadać mniej więcej pierwotnemu systemowi klasyfikacji o pięciu skalach.
Moduł przypisuje również ocenę do każdej pozycji dla każdej z pięciu kategorii reprezentujących tematy. Wynik wskazuje prawdopodobieństwo przypisania wiersza do określonej kategorii.
Macierz tematu funkcji
Drugim wyjściem modułu jest macierz tematu funkcji. Jest to tabelarowy zestaw danych, który zawiera tekst cechowany w kolumnieFeature wraz z wynikiem dla każdej z kategorii w pozostałych kolumnach: Temat 1, Temat 2, ... Temat N. Wynik reprezentuje współczynnik.
Cecha | Temat 1 | Temat 2 | Temat 3 | Temat 4 | Temat 5 |
---|---|---|---|---|---|
Ciekawe | 0.0240282071983144 | 0.0354678954779375 | 0.363051866576914 | 0.0276637824315893 | 0.660663576149515 |
Został | 0.0171478729532397 | 0.0823969031108669 | 0.00452966877950789 | 0.0408714510319233 | 0.025077322689733 |
z | 0.0148224220349217 | 0.0505086981492109 | 0.00434423322461094 | 0.0273389126293824 | 0.0171484355106826 |
Działka | 0.0227415889348212 | 0.0408709456489325 | 0.182791041345191 | 0.086937090812819 | 1 0.0169680136708971 |
czytanie | 0.0227415889348212 | 0.0408709456489325 | 0.182791041345191 | 0.0869370908128191 | 0.0169680136708971 |
Próbował | 0.0269724979147211 | 0.039026263551767 | 0.00443749106785087 | 0.0628829816088284 | 0.0235340728818033 |
Me | 0.0262656945140134 | 0.0366941302751921 | 0.00656837975179138 | 0.0329214576160066 | 0.0214121851106808 |
na wartość | 0.0141026103224462 | 0.043359976919215 | 0.00388640531859447 | 0.0305925953440055 | 0.0228993750526364 |
it | 0.0264490547105951 | 0.0356674440311847 | 0.00541759897864314 | 0.0314539386250293 | 0.0140606468587681 |
friend | 0.0135971322960941 | 0.0346118171467234 | 0.00434999437350706 | 0.0666507321888536 | 0.018156863779311 |
points | 0.0227415889348212 | 0.0396233855719081 | 0.00404663601474112 | 0.0381156510019025 | 0.0337788009496797 |
Dobry | 0.651813073836783 | 0.0598646397444108 | 0.00446809691985617 | 0.0358975694646062 | 0.0138989124411206 |
Jego | 0.0185385588647078 | 0.144253986783184 | 0.00408876416453866 | 0.0583049240441475 | 0.015442805566858 |
z | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
Pożyczonych | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
Hsa | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
książka | 0.0143157047920681 | 0.069145948535052 | 0.184036340170983 | 0.0548757337823903 | 0.0156837976985903 |
zalecane | 0.0161486848419689 | 0.0399143326399534 | 0.00550113530229642 | 0.028637149142764 | 0.0147675139039372 |
this | 0.0161486848419689 | 0.0399143326399534 | 0.00550113530229642 | 0.028637149142764 | 0.0147675139039372 |
Uwagi techniczne
Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.
Szczegóły implementacji
Domyślnie rozkłady danych wyjściowych dla przekształconego zestawu danych i macierzy tematu funkcji są normalizowane jako prawdopodobieństwa.
Przekształcony zestaw danych jest normalizowany jako warunkowe prawdopodobieństwo tematów w danym dokumencie. W tym przypadku suma każdego wiersza jest równa 1.
Macierz tematu funkcji jest normalizowana jako warunkowe prawdopodobieństwo wyrazów podanych w temacie. W tym przypadku suma każdej kolumny jest równa 1.
Porada
Czasami moduł może zwrócić pusty temat, który jest najczęściej spowodowany pseudolosowym inicjowaniem algorytmu. W takim przypadku możesz spróbować zmienić powiązane parametry, takie jak maksymalny rozmiar słownika N-grama lub liczba bitów do użycia na użytek funkcji wyznaczania wartości skrótu.
Modelowanie LDA i tematu
Latent Dirichlet Allocation (LDA) jest często używany do modelowania tematów opartych na zawartości, co zasadniczo oznacza uczenie kategorii z niesklasyfikowanego tekstu. W modelowaniu tematu opartego na zawartości temat jest dystrybucją słów.
Załóżmy na przykład, że podano zestaw recenzji klientów, który zawiera wiele, wiele produktów. Tekst recenzji, które były przesyłane przez wielu klientów w czasie, zawierałby wiele terminów, z których niektóre są używane w wielu tematach.
Temat , który jest identyfikowany przez proces LDA, może reprezentować przeglądy dla pojedynczego produktu A lub może reprezentować grupę przeglądów produktów. Dla LDA sam temat jest po prostu rozkładem prawdopodobieństwa w czasie dla zestawu wyrazów.
Terminy rzadko wykluczają się do żadnego produktu, ale mogą odnosić się do innych produktów lub mogą być ogólnymi terminami, które mają zastosowanie do wszystkiego ("świetnie", "awful"). Inne terminy mogą być wyrazami szumu. Jednak ważne jest, aby zrozumieć, że metoda LDA nie ma na celu przechwycenia wszystkich wyrazów we wszechświecie ani zrozumienia, jak słowa są powiązane, oprócz prawdopodobieństwa wystąpienia współwydarzeń. Może ona grupowania tylko wyrazów, które zostały użyte w domenie docelowej.
Po obliczeniu terminu indeksy poszczególne wiersze tekstu są porównywane przy użyciu miary podobieństwa na podstawie odległości, aby określić, czy dwa fragmenty tekstu są podobne do siebie. Na przykład może się okazać, że produkt ma wiele nazw, które są silnie skorelowane. Może się też okazać, że silnie negatywne terminy są zwykle skojarzone z konkretnym produktem. Miary podobieństwa można użyć zarówno do identyfikowania powiązanych terminów, jak i do tworzenia rekomendacji.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Wejściowy zestaw danych |
Parametry modułu
Nazwa | Typ | Zakres | Opcjonalne | Domyślny | Opis |
---|---|---|---|---|---|
Liczba bitów skrótu | Liczba całkowita | [1;31] | Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje nie jest zaznaczone | 12 | Liczba bitów do użycia na użytek funkcji wyznaczania wartości skrótu |
Kolumny docelowe | Wybór kolumny | Wymagane | StringFeature | Nazwa lub indeks kolumny docelowej | |
Liczba tematów do modelowania | Liczba całkowita | [1;1000] | Wymagane | 5 | Modelowanie dystrybucji dokumentów na N tematach |
N-gramy | Liczba całkowita | [1;10] | Wymagane | 2 | Kolejność N-generowana podczas wyznaczania wartości skrótu |
Normalizacji | Wartość logiczna | Wymagane | true | Normalizowanie danych wyjściowych do prawdopodobieństw. Przekształcony zestaw danych to P(topic|document), a macierz tematu funkcji to P(słowo|topowe). | |
Pokaż wszystkie opcje | Wartość logiczna | Prawda czy fałsz | Wymagane | Fałsz | Przedstawia dodatkowe parametry specyficzne dla Vowpal Wabbit online LDA |
Parametr Bezbłędny | Float | [0.00001;1.0] | Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone | 0,01 | Parametr Bezbłędny |
Parametr alfa | Float | [0.00001;1.0] | Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone | 0,01 | Parametr alfa |
Szacowana liczba dokumentów | Liczba całkowita | [1; int. MaxValue] | Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone | 1000 | Szacowana liczba dokumentów (odpowiada lda_D parametru) |
Rozmiar partii | Liczba całkowita | [1;1024] | Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone | 32 | Rozmiar partii |
Początkowa wartość iteracji używanej w harmonogramie aktualizacji szybkości uczenia | Liczba całkowita | [0; int. MaxValue] | Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone | 0 | Początkowa wartość liczby iteracji używanej w harmonogramie aktualizacji szybkości uczenia (odpowiada parametrowi initial_t) |
Moc zastosowana do iteracji podczas aktualizacji | Float | [0.0;1.0] | Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone | 0,5 | Moc zastosowana do liczby iteracji podczas aktualizacji online (odpowiada parametrowi power_t) |
Liczba iteracji trenowania | Liczba całkowita | [1;1024] | Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone | 25 | Liczba iteracji trenowania |
Słownik kompilacji ngramów | Wartość logiczna | Prawda czy fałsz | Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje nie jest zaznaczone | Prawda | Tworzy słownik ngramów przed rozpoczęciem przetwarzania LDA. Przydatne do inspekcji i interpretacji modelu |
Liczba bitów do użycia na użytek funkcji wyznaczania wartości skrótu | Liczba całkowita | [1;31] | Ma zastosowanie, gdy opcja Build dictionary of ngrams (Słownik kompilacji ngramów) ma wartość False | 12 | Liczba bitów do użycia podczas wyznaczania wartości skrótu funkcji |
Maksymalny rozmiar słownika ngramu | Liczba całkowita | [1; int. MaxValue] | Ma zastosowanie, gdy opcja Build dictionary of ngrams (Słownik kompilacji ngramów) ma wartość True | 20000 | Maksymalny rozmiar słownika ngrams. Jeśli liczba tokenów w danych wejściowych przekroczy ten rozmiar, mogą wystąpić kolizje |
Tworzenie słownika ngramów przed LDA | Wartość logiczna | Prawda czy fałsz | Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone | Prawda | Tworzy słownik ngramów przed LDA. Przydatne do inspekcji i interpretacji modelu |
Maksymalna liczba ngramów w słowniku | Liczba całkowita | [1; int. MaxValue] | Ma zastosowanie, gdy opcja Skompilowanie słownika ngramów ma wartość True i zaznaczono pole wyboru Pokaż wszystkie opcje | 20000 | Maksymalny rozmiar słownika. Jeśli liczba tokenów w danych wejściowych przekroczy ten rozmiar, mogą wystąpić kolizje |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Przekształcony zestaw danych | Tabela danych | Wyjściowy zestaw danych |
Macierz tematu funkcji | Tabela danych | Macierz tematu funkcji lda |
Przekształcanie LDA | ITransform, interfejs | Przekształcanie, które stosuje LDA do zestawu danych |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0002 | Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych. |
Błąd 0003 | Wyjątek występuje, jeśli co najmniej jeden z danych wejściowych ma wartość null lub jest pusty. |
Błąd 0004 | Wyjątek występuje, jeśli parametr jest mniejszy lub równy określonej wartości. |
Błąd 0017 | Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł. |
Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.
Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).
Zobacz też
Analiza tekstu
Tworzenie skrótów funkcji
Rozpoznawanie jednostek nazwanych
Ocena modelu Vowpal Wabbit 7-4
Trenowanie modelu Vowpal Wabbit 7-4
Trenowanie modelu Vowpal Wabbit 8