Informazioni sul processo di indicizzazione

Completato

Il processo di indicizzazione è basato sulla creazione di un documento per ogni entità indicizzata. Durante l'indicizzazione, una pipeline di arricchimento compila in modo iterativo i documenti che combinano i metadati dall'origine dati con i campi arricchiti estratti dalle competenze cognitive. Ogni documento indicizzato può essere considerato come una struttura JSON, che inizialmente è costituita da un documento con i campi di indice di cui è stato eseguito il mapping ai campi estratti direttamente dai dati di origine, come indicato di seguito:

  • Documento
    • nome_archiviazione_metadati
    • autore_metadati
    • content

Quando i documenti nell'origine dati contengono immagini, è possibile configurare l'indicizzatore per estrarre i dati dell'immagine e inserire ogni immagine in una raccolta immagini_normalizzate, come indicato di seguito:

  • Documento
    • nome_archiviazione_metadati
    • autore_metadati
    • content
    • immagini_normalizzate
      • immagine0
      • Immagine1

Questo approccio per la normalizzazione dei dati dell'immagine consente di usare la raccolta di immagini come input per le competenze che estraggono informazioni dai dati dell'immagine.

Ogni competenza aggiunge campi al documento, quindi, ad esempio, un'abilità che rileva la lingua in cui un documento è scritto potrebbe archiviare l'output in un campo lingua, come indicato di seguito:

  • Documento
    • nome_archiviazione_metadati
    • autore_metadati
    • content
    • immagini_normalizzate
      • immagine0
      • Immagine1
    • language

Il documento è strutturato in modo gerarchico e le competenze vengono applicate a un contesto specifico nella gerarchia, consentendo di eseguire la competenza per ogni elemento a un livello specifico del documento. È ad esempio possibile eseguire una competenza di riconoscimento ottico dei caratteri (OCR) per ogni immagine nella raccolta di immagini normalizzate per estrarre il testo incluso:

  • Documento
    • nome_archiviazione_metadati
    • autore_metadati
    • content
    • immagini_normalizzate
      • immagine0
        • Text
      • Immagine1
        • Text
    • language

I campi di output da ogni competenza possono essere usati come input per altre competenze in un punto successivo della pipeline, che archiviano a loro volta i rispettivi output nella struttura del documento. È ad esempio possibile usare una competenza di merge per combinare il contenuto di testo originale con il testo estratto da ogni immagine per creare un nuovo campo contenuto_unito che contiene tutto il testo del documento, incluso il testo dell'immagine.

  • Documento
    • nome_archiviazione_metadati
    • autore_metadati
    • content
    • immagini_normalizzate
      • immagine0
        • Text
      • Immagine1
        • Text
    • language
    • contenuto_unito

I campi della struttura finale del documento alla fine della pipeline vengono mappati ai campi dell'indice dall'indicizzatore in uno dei due modi seguenti:

  1. Tutti i campi estratti direttamente dai dati di origine vengono mappati ai campi dell'indice. Questi mapping possono essere impliciti, ovvero i campi vengono automaticamente mappati ai campi con lo stesso nome nell'indice, o espliciti, ovvero un mapping viene definito in modo da associare un campo di origine a un campo di indice, spesso per rinominare il campo in un elemento più utile o per applicare una funzione al valore dei dati durante il mapping.
  2. I campi di output delle competenze nel set di competenze vengono mappati in modo esplicito dalla relativa posizione gerarchica nell'output al campo di destinazione nell'indice.