Ottenere informazioni dettagliate sul riconoscimento ottico dei caratteri (OCR)
Riconoscimento ottico dei caratteri (OCR)
OCR estrae testo da immagini come immagini, segni stradali e prodotti nei file multimediali per creare informazioni dettagliate.
OCR estrae informazioni dettagliate da testo stampato e scritto a mano in oltre 50 lingue, tra cui da un'immagine con testo in più lingue. Per altre informazioni, vedere Linguaggi supportati da OCR.
Per altre informazioni su OCR, vedere Tecnologia OCR.
Casi d'uso del riconoscimento ottico dei caratteri
- Ricerca approfondita dei filmati multimediali per immagini con segnali, nomi di strada o targhe dell'auto, ad esempio nelle forze dell'ordine.
- Estrazione di testo dalle immagini nei file multimediali e quindi traduzione in più lingue nelle etichette per l'accessibilità, ad esempio in contenuti multimediali o intrattenimento.
- Rilevamento dei nomi dei marchi nelle immagini e assegnazione di tag a scopo di traduzione, ad esempio per pubblicità e personalizzazione.
- Estrazione di testo in immagini contrassegnate e classificate automaticamente per l'accessibilità e l'utilizzo futuro, ad esempio per generare contenuto in un'agenzia di notizie.
- Estrazione di testo negli avvisi nelle istruzioni online e quindi traduzione del testo in conformità agli standard locali, ad esempio istruzioni di e-learning per l'uso delle apparecchiature.
Visualizzare il codice JSON di informazioni dettagliate con il portale Web
Dopo aver caricato e indicizzato un video, le informazioni dettagliate sono disponibili in formato JSON per il download tramite il portale Web.
- Selezionare la scheda Libreria .
- Selezionare i supporti con cui si vuole lavorare.
- Selezionare Download (Download) e Insights (JSON).Select Download and the Insights (JSON). Il file JSON viene aperto in una nuova scheda del browser.
- Cercare la coppia di chiavi descritta nella risposta di esempio.
Usare l'API
- Usare la richiesta Recupera indice video . È consigliabile
&includeSummarizedInsights=false
passare . - Cercare le coppie chiave descritte nella risposta di esempio.
Esempio di risposta
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
Importante
È importante leggere la panoramica delle note sulla trasparenza per tutte le funzionalità vi. Ogni informazione ha anche note sulla trasparenza proprie:
Note OCR
- Video Indexer ha un limite di OCR di 50.000 parole per ogni video indicizzato. Una volta raggiunto il limite, non vengono generati risultati OCR aggiuntivi.
- Considerare attentamente l'accuratezza dei risultati, per promuovere rilevamenti più accurati, controllare la qualità dell'immagine, le immagini di bassa qualità potrebbero influire sulle informazioni dettagliate rilevate.
- Valutare attentamente quando si usa per le forze dell'ordine. OCR potrebbe leggere o non rilevare parti del testo. Per garantire una determinazione vi equa e di alta qualità, combinare l'automazione basata su OCR con la supervisione umana.
- Quando si estrae testo scritto a mano, evitare di usare i risultati OCR delle firme difficili da leggere sia per gli esseri umani che per i computer. Un modo migliore per usare OCR consiste nell'usarlo per rilevare la presenza di una firma per un'ulteriore analisi.
- Non usare OCR per decisioni che potrebbero avere gravi effetti negativi su individui o gruppi. I modelli di Machine Learning che estraggono testo possono comportare output di testo non rilevati o non corretti. Le decisioni basate sull'output errato potrebbero avere gravi effetti negativi che devono essere evitati. È sempre necessario includere la revisione umana delle decisioni che hanno il potenziale di gravi impatti sulle persone.
Componenti OCR
Durante la procedura OCR, le immagini di testo in un file multimediale vengono elaborate, come indicato di seguito:
Componente | Definizione |
---|---|
File di origine | L'utente carica il file di origine per l'indicizzazione. |
Modello di lettura | Le immagini vengono rilevate nel file multimediale e nel testo, quindi estratte e analizzate dai servizi di intelligenza artificiale di Azure. |
Ottenere il modello di risultati di lettura | L'output del testo estratto viene visualizzato in un file JSON. |
Valore di attendibilità | Il livello di attendibilità stimato di ogni parola viene calcolato come intervallo compreso tra 0 e 1. Il punteggio di attendibilità rappresenta la certezza nell'accuratezza del risultato. Ad esempio, una certezza dell'82% è rappresentata come punteggio di 0,82. |