Udostępnij za pośrednictwem


Składniki jednostek w niestandardowej analizie tekstu na potrzeby kondycji

W niestandardowych analiza tekstu dla kondycji jednostki są odpowiednimi elementami informacji wyodrębnianych z tekstu wejściowego bez struktury. Jednostkę można wyodrębnić przy użyciu różnych metod. Można je nauczyć za pomocą kontekstu, dopasowanego z listy lub wykrytego przez wstępnie rozpoznaną jednostkę. Każda jednostka w projekcie składa się z co najmniej jednej z tych metod, które są zdefiniowane jako składniki jednostki. Gdy jednostka jest definiowana przez więcej niż jeden składnik, ich przewidywania mogą się nakładać. Zachowanie przewidywania jednostki można określić, gdy jego składniki nakładają się na siebie, używając stałego zestawu opcji w opcjach jednostki.

Typy składników

Składnik jednostki określa sposób wyodrębniania jednostki. Jednostka może zawierać jeden składnik, który określałby jedyną metodę, która będzie używana do wyodrębniania jednostki lub wielu składników w celu rozszerzenia sposobów definiowania i wyodrębniania jednostki.

Analiza tekstu dla jednostek kondycji są automatycznie ładowane do projektu jako jednostki ze wstępnie utworzonymi składnikami. Składniki listy można definiować dla jednostek ze wstępnie utworzonymi składnikami, ale nie można dodawać poznanych składników. Podobnie można tworzyć nowe jednostki ze poznanymi składnikami i składnikami listy, ale nie można ich wypełnić dodatkowymi wstępnie utworzonymi składnikami.

Poznany składnik

Poznany składnik używa tagów jednostek, za pomocą których oznaczysz tekst, aby wytrenować model uczenia maszynowego. Model uczy się przewidywać, gdzie znajduje się jednostka, na podstawie kontekstu w tekście. Etykiety zawierają przykłady sytuacji, w których jednostka ma znajdować się w tekście, na podstawie znaczenia wokół niego wyrazów i słów, które zostały oznaczone etykietą. Ten składnik jest definiowany tylko w przypadku dodawania etykiet do danych dla jednostki. Jeśli nie oznaczysz żadnych danych, nie będzie on miał poznanego składnika.

Analiza tekstu dla jednostek kondycji, które domyślnie mają wstępnie utworzone składniki, nie mogą być rozszerzone o poznane składniki, co oznacza, że nie wymagają ani nie akceptują dalszych etykiet do działania.

Zrzut ekranu przedstawiający przykład poznanych składników dla jednostek.

Składnik listy

Składnik listy reprezentuje stały, zamknięty zestaw powiązanych wyrazów wraz z ich synonimami. Składnik wykonuje dokładne dopasowanie tekstu względem listy wartości podanych jako synonimy. Każdy synonim należy do "klucza listy", który może być używany jako znormalizowana, standardowa wartość synonimu, który zwróci w danych wyjściowych, jeśli składnik listy jest zgodny. Klucze listy nieużywane do dopasowywania.

W projektach wielojęzycznych można określić inny zestaw synonimów dla każdego języka. Korzystając z interfejsu API przewidywania, można określić język w żądaniu wejściowym, który będzie zgodny tylko z synonimami skojarzonymi z tym językiem.

Zrzut ekranu przedstawiający przykładowe składniki listy jednostek.

Wstępnie utworzony składnik

Analiza tekstu dla jednostek kondycji są automatycznie ładowane do projektu jako jednostki ze wstępnie utworzonymi składnikami. Składniki listy można definiować dla jednostek ze wstępnie utworzonymi składnikami, ale nie można dodawać poznanych składników. Podobnie można utworzyć nowe jednostki ze wstępnie utworzonymi składnikami, ale nie można ich wypełnić dodatkowymi wstępnie utworzonymi składnikami. Jednostki ze wstępnie utworzonymi składnikami są wstępnie wytrenowane i mogą wyodrębniać informacje dotyczące ich kategorii bez żadnych etykiet.

Zrzut ekranu przedstawiający przykład wstępnie utworzonych składników dla jednostek.

Opcje jednostek

Gdy dla jednostki zdefiniowano wiele składników, ich przewidywania mogą się nakładać. Gdy wystąpi nakładanie, ostateczne przewidywanie każdej jednostki jest określane przez jedną z następujących opcji.

Łączenie składników

Połącz składniki jako jedną jednostkę, gdy nakładają się, przyjmując związek wszystkich składników.

Użyj tego polecenia, aby połączyć wszystkie składniki, gdy nakładają się na siebie. Po połączeniu składników uzyskujesz wszystkie dodatkowe informacje powiązane z listą lub wstępnie utworzonym składnikiem, gdy są obecne.

Przykład

Załóżmy, że masz jednostkę o nazwie Oprogramowanie, która zawiera składnik listy zawierający "Proseware OS" jako wpis. W danych wejściowych masz "Chcę kupić proseware OS 9" z tagiem "Proseware OS 9" oznaczony jako Oprogramowanie:

Zrzut ekranu przedstawiający jednostki poznanej i listy nakładających się na siebie.

Korzystając ze składników łączenia, jednostka zwróci pełny kontekst jako "Proseware OS 9" wraz z kluczem ze składnika listy:

Zrzut ekranu przedstawiający wynik połączonego składnika.

Załóżmy, że masz tę samą wypowiedź, ale przez poznany składnik przewidział tylko "system operacyjny 9":

Zrzut ekranu przedstawiający wypowiedź z systemem O S 9 przewidywanym przez poznany składnik.

W przypadku łączenia składników jednostka będzie nadal zwracana jako "Proseware OS 9" z kluczem ze składnika listy:

Zrzut ekranu przedstawiający zwróconą jednostkę oprogramowania.

Nie łącz składników

Każdy nakładający się składnik zwróci jako osobne wystąpienie jednostki. Zastosuj własną logikę po przewidywaniu za pomocą tej opcji.

Przykład

Załóżmy, że masz jednostkę o nazwie Software z składnikiem listy zawierającym wpis "Proseware Desktop". W danych oznaczonych etykietami masz etykietę "Chcę kupić Proseware Desktop Pro" z etykietą "Proseware Desktop Pro" oznaczona jako Oprogramowanie:

Zrzut ekranu przedstawiający przykład jednostki poznanej i listy nakładających się na siebie.

Gdy składniki nie zostaną połączone, jednostka zwróci dwa razy:

Zrzut ekranu przedstawiający zwróconą jednostkę dwa razy.

Jak używać składników i opcji

Składniki zapewniają elastyczność definiowania jednostki w więcej niż jeden sposób. Podczas łączenia składników upewnij się, że każdy składnik jest reprezentowany i zmniejsza liczbę jednostek zwracanych w przewidywaniach.

Typowym rozwiązaniem jest rozszerzenie wstępnie utworzonego składnika o listę wartości, których wstępnie skompilowany może nie obsługiwać. Jeśli na przykład masz jednostkę Nazwa leków, która ma Medication.Name dodany wstępnie utworzony składnik, jednostka może nie przewidzieć wszystkich nazw leków specyficznych dla twojej domeny. Możesz użyć składnika listy, aby rozszerzyć wartości jednostki Nazwa leków, a tym samym rozszerzyć wstępnie utworzone przy użyciu własnych wartości Nazw leków.

Innym razem może cię zainteresować wyodrębnienie jednostki za pomocą kontekstu, takiego jak urządzenie medyczne. Należy oznaczyć poznany składnik urządzenia medycznego, aby dowiedzieć się, gdzie urządzenie medyczne opiera się na jego pozycji w zdaniu. Możesz również mieć listę urządzeń medycznych, które już znasz przed przekazaniem, które chcesz zawsze wyodrębnić. Połączenie obu składników w jednej jednostce umożliwia uzyskanie obu opcji dla jednostki.

Gdy składniki nie są łączone, można zezwolić każdemu składnikowi na działanie jako niezależny moduł wyodrębniania jednostek. Jednym ze sposobów użycia tej opcji jest oddzielenie jednostek wyodrębnionych z listy do tych wyodrębnionych za pośrednictwem poznanych lub wstępnie utworzonych składników w celu obsługi i traktowania ich inaczej.

Następne kroki