Omówienie procesu indeksowania

Ukończone

Proces indeksowania działa przez utworzenie dokumentu dla każdej indeksowanej jednostki. Podczas indeksowania iteracyjny potok wzbogacania kompiluje dokumenty, które łączą metadane ze źródła danych z wzbogaconymi polami wyodrębnianymi przez umiejętności poznawcze. Każdy indeksowany dokument można traktować jako strukturę JSON, która początkowo składa się z dokumentu z polami indeksu mapowanych na pola wyodrębnione bezpośrednio z danych źródłowych, w następujący sposób:

  • Dokumentu
    • metadata_storage_name
    • metadata_author
    • Zawartości

Gdy dokumenty w źródle danych zawierają obrazy, można skonfigurować indeksator tak, aby wyodrębnił dane obrazu i umieścił każdy obraz w kolekcji normalized_images w następujący sposób:

  • Dokumentu
    • metadata_storage_name
    • metadata_author
    • Zawartości
    • normalized_images
      • image0
      • image1

Normalizacja danych obrazu w ten sposób umożliwia użycie kolekcji obrazów jako danych wejściowych dla umiejętności wyodrębniania informacji z danych obrazu.

Każda umiejętność dodaje pola do dokumentu, więc na przykład umiejętność, która wykrywa język , w którym jest zapisywany dokument, może przechowywać jego dane wyjściowe w polu języka , w następujący sposób:

  • Dokumentu
    • metadata_storage_name
    • metadata_author
    • Zawartości
    • normalized_images
      • image0
      • image1
    • Język

Dokument jest ustrukturyzowany hierarchicznie, a umiejętności są stosowane do określonego kontekstu w hierarchii, umożliwiając uruchamianie umiejętności dla każdego elementu na określonym poziomie dokumentu. Na przykład można uruchomić umiejętności optycznego rozpoznawania znaków (OCR) dla każdego obrazu w kolekcji znormalizowanych obrazów, aby wyodrębnić dowolny tekst, który zawiera:

  • Dokumentu
    • metadata_storage_name
    • metadata_author
    • Zawartości
    • normalized_images
      • image0
        • Tekst
      • image1
        • Tekst
    • Język

Pola wyjściowe z każdej umiejętności mogą być używane jako dane wejściowe dla innych umiejętności w dalszej części potoku, które z kolei przechowują swoje dane wyjściowe w strukturze dokumentów. Na przykład możemy użyć umiejętności scalania , aby połączyć oryginalną zawartość tekstową z tekstem wyodrębnionym z każdego obrazu w celu utworzenia nowego pola merged_content zawierającego cały tekst w dokumencie, w tym tekst obrazu.

  • Dokumentu
    • metadata_storage_name
    • metadata_author
    • Zawartości
    • normalized_images
      • image0
        • Tekst
      • image1
        • Tekst
    • Język
    • merged_content

Pola w końcowej strukturze dokumentu na końcu potoku są mapowane na pola indeksowania przez indeksator na jeden z dwóch sposobów:

  1. Pola wyodrębnione bezpośrednio z danych źródłowych są mapowane na pola indeksu. Te mapowania mogą być niejawne (pola są automatycznie mapowane na pola o tej samej nazwie w indeksie) lub jawne (mapowanie jest definiowane w celu dopasowania pola źródłowego do pola indeksu, często w celu zmiany nazwy pola na coś bardziej przydatnego lub zastosowania funkcji do wartości danych podczas mapowania).
  2. Pola wyjściowe z umiejętności w zestawie umiejętności są jawnie mapowane z ich hierarchicznej lokalizacji w danych wyjściowych do pola docelowego w indeksie.