Azure Document Intelligence - Layout API: Differences Between Studio Response and API Call

Alessio Gon 0 Punti di reputazione
2025-01-21T15:06:17.0833333+00:00

Hello everyone, I’m running some experiments to extract checkboxes from a page of a PDF.

First, I tried extraction using Document Studio: the results are very promising, and the system correctly identifies all the checkboxes and their respective states, some with high confidence and others with very low confidence (even as low as 0.1).

Encouraged by these results, I immediately tested it using an API call via a Python script, invoking the same model version (30-11-2024), and something strange happens: the results are almost the same, but the checkboxes with 0.1 confidence are not extracted, which is an issue for me.

Do you know if there’s any system hard-threshold that excludes checkboxes with very low confidence?

Azure
Azure
Una piattaforma e un'infrastruttura di cloud computing per la creazione, la distribuzione e la gestione di applicazioni e servizi tramite una rete mondiale di data center gestiti da Microsoft.
136 domande
{count} voti

1 risposta

Ordina per: Più utili
  1. Sampath 420 Punti di reputazione Fornitore Microsoft
    2025-02-18T13:09:08.57+00:00

    Ciao, Alessio Gon,

    Sì, in base al documento, questo MSDOC, ci sono diverse possibili ragioni per cui la chiamata API potrebbe non restituire le caselle di controllo con una fiducia molto bassa, mentre Document Intelligence Studio lo fa:

    L'API potrebbe applicare una soglia minima di fiducia che filtra automaticamente gli elementi al di sotto di un certo livello di fiducia (ad esempio, 0,1). In Document Intelligence Studio, è probabile che tutti gli elementi rilevati vengano visualizzati, anche se la loro fiducia è estremamente bassa, consentendo una revisione manuale.

    Comportamento del punteggio di fiducia del segno di selezione:

    L'articolo afferma che i segni di selezione (caselle di controllo) hanno un punteggio di fiducia dedicato nella risposta. Un segno di selezione con un punteggio di fiducia basso significa che il modello è altamente incerto se è presente o classificato correttamente. L'API potrebbe escludere queste caselle di controllo a bassa fiducia per evitare falsi positivi, mentre Document Intelligence Studio presenta tutti i risultati possibili per la revisione manuale. Differenze di post-elaborazione tra Studio e API

    Document Intelligence Studio può includere una logica interna aggiuntiva che forza l'inclusione di tutti gli elementi rilevati, indipendentemente dalla fiducia.

    Al contrario, l'API può utilizzare un meccanismo di filtraggio basato sulla fiducia per migliorare l'accuratezza.

    Secondo il documento, quando un campo è facoltativo e mancante, viene assegnato un valore NULL con un punteggio di fiducia associato.

    Se l'API tratta le caselle di controllo a bassa fiducia come "mancanti", potrebbe non restituirle, mentre Studio le mostra ancora con il punteggio di fiducia basso allegato.

    Possibili soluzioni:

    Controlla la sezione selectionMarks nell'output dell'API per vedere se le caselle di controllo a bassa fiducia sono completamente omesse o semplicemente non restituite nei risultati. Se viene applicato un filtro di fiducia, verifica se può essere sovrascritto nella richiesta API. Modifica il tuo script per gestire manualmente i casi di bassa fiducia richiedendo i risultati grezzi e rivedendoli programmaticamente. In alternativa, potresti costruire e addestrare un modello personalizzato utilizzando Document Intelligence nei servizi Azure AI con questo documento.

    Sto traducendo le risposte dall'inglese, quindi scusa eventuali errori grammaticali.

    Spero che queste informazioni ti siano utili!

    Se questa risposta è stata utile, fai clic su "Accetta risposta" e lascia un voto positivo.

    Se hai ulteriori domande, fai clic su "Commenta."

    0 commenti Nessun commento

Risposta

Le risposte possono essere contrassegnate come risposte accettate dall'autore della domanda. Ciò consente agli utenti di sapere che la risposta ha risolto il problema dell'autore.