Descrição geral do reconhecimento ótico de carateres no Microsoft Syntex

Artigo
10/23/2024

Observação

Até junho de 2025, pode experimentar uma quantidade limitada de reconhecimento ótico de carateres e outros serviços Syntex selecionados sem custos se tiver a faturação pay as you go configurada. Para obter informações e limitações, consulte Experimentar Microsoft Syntex e explorar os respetivos serviços.

O serviço de reconhecimento ótico de carateres (OCR) no Microsoft Syntex permite extrair texto impresso ou manuscrito de imagens e documentos. Exemplos de imagens incluem cartazes, desenhos e etiquetas de produto. Exemplos de documentos incluem artigos, relatórios, formulários e faturas.

Normalmente, o texto é extraído como palavras, linhas de texto e parágrafos ou blocos de texto, o que permite o acesso à versão digital do texto digitalizado. As informações extraídas são indexadas na pesquisa e podem ser disponibilizadas para funcionalidades de conformidade, como prevenção de perda de dados (DLP).

Por exemplo, pode ativar o serviço OCR e, em seguida, adicionar ficheiros de imagem à sua biblioteca de documentos. Microsoft Syntex analisa automaticamente os ficheiros de imagem, extrai o texto relevante e disponibiliza o texto das imagens para pesquisa e indexação. Esta funcionalidade permite-lhe encontrar rápida e precisamente as palavras-chave e expressões que procura.

Requisitos e limitações

Tipos de arquivo compatíveis

Ponto de extremidade	Tipos de arquivo compatíveis
SharePoint e OneDrive	`.bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf`
Dispositivos Teams, Exchange e Windows	`.bmp, .png, .jpeg, .jpg, .tiff, and .pdf`

Além do PDF baseado em imagens, o Syntex OCR suportará PDF híbrido (pdf de texto mais imagem) a partir de novembro de 2024. Após esse período, os PDFs híbridos carregados recentemente serão processados pelo serviço OCR.

Observação

Quando aplica o OCR a um ficheiro de imagem, o texto é armazenado na coluna Metadados de texto extraídos . Quando aplica o OCR a um ficheiro PDF ou TIFF, o texto extraído é indexado na pesquisa, mas não está disponível na coluna de metadados.

Idiomas compatíveis

O serviço OCR suporta mais de 150 idiomas.

Localizações e soluções suportadas

O serviço OCR suporta várias soluções, conforme mostrado na tabela seguinte. Para obter detalhes sobre soluções de conformidade, consulte Localizações e soluções suportadas no Microsoft Purview.

Local	Solução suportada
Exchange	O texto está disponível para soluções orientadas para pesquisa e pesquisa do utilizador final. O texto está disponível para soluções de conformidade.
Sites do SharePoint	O texto está disponível para soluções orientadas para pesquisa e pesquisa do utilizador final. O texto está disponível para soluções de conformidade.
Contas do OneDrive	O texto está disponível para soluções orientadas para pesquisa e pesquisa do utilizador final. O texto está disponível para soluções de conformidade.
Chat do Teams e mensagem de canal	O texto está disponível para soluções de conformidade.
Dispositivos	O texto está disponível para soluções de conformidade.

Limitações do arquivo

As imagens têm de ter menos de 50 MB.
As imagens têm de ter, pelo menos, 50 x 50 pixéis e não ser superiores a 16 000 x 16 000 pixels.
As imagens carregadas após o OCR ter sido ativado são as únicas imagens que são digitalizadas.
As imagens incorporadas em documentos do Office não são suportadas.

Compartilhar via