Składniki jednostek w niestandardowej analizie tekstu na potrzeby kondycji
W niestandardowych analiza tekstu dla kondycji jednostki są odpowiednimi elementami informacji wyodrębnianych z tekstu wejściowego bez struktury. Jednostkę można wyodrębnić przy użyciu różnych metod. Można je nauczyć za pomocą kontekstu, dopasowanego z listy lub wykrytego przez wstępnie rozpoznaną jednostkę. Każda jednostka w projekcie składa się z co najmniej jednej z tych metod, które są zdefiniowane jako składniki jednostki. Gdy jednostka jest definiowana przez więcej niż jeden składnik, ich przewidywania mogą się nakładać. Zachowanie przewidywania jednostki można określić, gdy jego składniki nakładają się na siebie, używając stałego zestawu opcji w opcjach jednostki.
Typy składników
Składnik jednostki określa sposób wyodrębniania jednostki. Jednostka może zawierać jeden składnik, który określałby jedyną metodę, która będzie używana do wyodrębniania jednostki lub wielu składników w celu rozszerzenia sposobów definiowania i wyodrębniania jednostki.
Analiza tekstu dla jednostek kondycji są automatycznie ładowane do projektu jako jednostki ze wstępnie utworzonymi składnikami. Składniki listy można definiować dla jednostek ze wstępnie utworzonymi składnikami, ale nie można dodawać poznanych składników. Podobnie można tworzyć nowe jednostki ze poznanymi składnikami i składnikami listy, ale nie można ich wypełnić dodatkowymi wstępnie utworzonymi składnikami.
Poznany składnik
Poznany składnik używa tagów jednostek, za pomocą których oznaczysz tekst, aby wytrenować model uczenia maszynowego. Model uczy się przewidywać, gdzie znajduje się jednostka, na podstawie kontekstu w tekście. Etykiety zawierają przykłady sytuacji, w których jednostka ma znajdować się w tekście, na podstawie znaczenia wokół niego wyrazów i słów, które zostały oznaczone etykietą. Ten składnik jest definiowany tylko w przypadku dodawania etykiet do danych dla jednostki. Jeśli nie oznaczysz żadnych danych, nie będzie on miał poznanego składnika.
Analiza tekstu dla jednostek kondycji, które domyślnie mają wstępnie utworzone składniki, nie mogą być rozszerzone o poznane składniki, co oznacza, że nie wymagają ani nie akceptują dalszych etykiet do działania.
Składnik listy
Składnik listy reprezentuje stały, zamknięty zestaw powiązanych wyrazów wraz z ich synonimami. Składnik wykonuje dokładne dopasowanie tekstu względem listy wartości podanych jako synonimy. Każdy synonim należy do "klucza listy", który może być używany jako znormalizowana, standardowa wartość synonimu, który zwróci w danych wyjściowych, jeśli składnik listy jest zgodny. Klucze listy nie są używane do dopasowywania.
W projektach wielojęzycznych można określić inny zestaw synonimów dla każdego języka. Korzystając z interfejsu API przewidywania, można określić język w żądaniu wejściowym, który będzie zgodny tylko z synonimami skojarzonymi z tym językiem.
Wstępnie utworzony składnik
Analiza tekstu dla jednostek kondycji są automatycznie ładowane do projektu jako jednostki ze wstępnie utworzonymi składnikami. Składniki listy można definiować dla jednostek ze wstępnie utworzonymi składnikami, ale nie można dodawać poznanych składników. Podobnie można utworzyć nowe jednostki ze wstępnie utworzonymi składnikami, ale nie można ich wypełnić dodatkowymi wstępnie utworzonymi składnikami. Jednostki ze wstępnie utworzonymi składnikami są wstępnie wytrenowane i mogą wyodrębniać informacje dotyczące ich kategorii bez żadnych etykiet.
Opcje jednostek
Gdy dla jednostki zdefiniowano wiele składników, ich przewidywania mogą się nakładać. Gdy wystąpi nakładanie, ostateczne przewidywanie każdej jednostki jest określane przez jedną z następujących opcji.
Łączenie składników
Połącz składniki jako jedną jednostkę, gdy nakładają się, przyjmując związek wszystkich składników.
Użyj tego polecenia, aby połączyć wszystkie składniki, gdy nakładają się na siebie. Po połączeniu składników uzyskujesz wszystkie dodatkowe informacje powiązane z listą lub wstępnie utworzonym składnikiem, gdy są obecne.
Przykład
Załóżmy, że masz jednostkę o nazwie Oprogramowanie, która zawiera składnik listy zawierający "Proseware OS" jako wpis. W danych wejściowych masz "Chcę kupić proseware OS 9" z tagiem "Proseware OS 9" oznaczony jako Oprogramowanie:
Korzystając ze składników łączenia, jednostka zwróci pełny kontekst jako "Proseware OS 9" wraz z kluczem ze składnika listy:
Załóżmy, że masz tę samą wypowiedź, ale przez poznany składnik przewidział tylko "system operacyjny 9":
W przypadku łączenia składników jednostka będzie nadal zwracana jako "Proseware OS 9" z kluczem ze składnika listy:
Nie łącz składników
Każdy nakładający się składnik zwróci jako osobne wystąpienie jednostki. Zastosuj własną logikę po przewidywaniu za pomocą tej opcji.
Przykład
Załóżmy, że masz jednostkę o nazwie Software z składnikiem listy zawierającym wpis "Proseware Desktop". W danych oznaczonych etykietami masz etykietę "Chcę kupić Proseware Desktop Pro" z etykietą "Proseware Desktop Pro" oznaczona jako Oprogramowanie:
Gdy składniki nie zostaną połączone, jednostka zwróci dwa razy:
Jak używać składników i opcji
Składniki zapewniają elastyczność definiowania jednostki w więcej niż jeden sposób. Podczas łączenia składników upewnij się, że każdy składnik jest reprezentowany i zmniejsza liczbę jednostek zwracanych w przewidywaniach.
Typowym rozwiązaniem jest rozszerzenie wstępnie utworzonego składnika o listę wartości, których wstępnie skompilowany może nie obsługiwać. Jeśli na przykład masz jednostkę Nazwa leków, która ma Medication.Name
dodany wstępnie utworzony składnik, jednostka może nie przewidzieć wszystkich nazw leków specyficznych dla twojej domeny. Możesz użyć składnika listy, aby rozszerzyć wartości jednostki Nazwa leków, a tym samym rozszerzyć wstępnie utworzone przy użyciu własnych wartości Nazw leków.
Innym razem może cię zainteresować wyodrębnienie jednostki za pomocą kontekstu, takiego jak urządzenie medyczne. Należy oznaczyć poznany składnik urządzenia medycznego, aby dowiedzieć się, gdzie urządzenie medyczne opiera się na jego pozycji w zdaniu. Możesz również mieć listę urządzeń medycznych, które już znasz przed przekazaniem, które chcesz zawsze wyodrębnić. Połączenie obu składników w jednej jednostce umożliwia uzyskanie obu opcji dla jednostki.
Gdy składniki nie są łączone, można zezwolić każdemu składnikowi na działanie jako niezależny moduł wyodrębniania jednostek. Jednym ze sposobów użycia tej opcji jest oddzielenie jednostek wyodrębnionych z listy do tych wyodrębnionych za pośrednictwem poznanych lub wstępnie utworzonych składników w celu obsługi i traktowania ich inaczej.