获取光学字符识别(OCR)见解
光学字符识别 (OCR)
OCR 从图片、街道标志和媒体文件中的产品等图像中提取文本,以创建见解。
OCR 从打印文本和手写文本中提取超过 50 种语言的见解,包括来自具有多种语言文本的图像。 有关详细信息,请参阅 OCR 支持的语言。
有关 OCR 的详细信息,请参阅 OCR 技术。
OCR 用例
- 例如,在执法部门中,深入搜索媒体镜头,寻找带有路标、街道名称或汽车车牌的图像。
- 从媒体文件中的图像中提取文本,然后在标签中将其翻译为多种语言,以便进行辅助功能,例如媒体或娱乐。
- 检测图像中的品牌名称并将其标记为翻译目的,例如广告和品牌。
- 提取图像中的文本,然后自动标记和分类,以便进行辅助功能和将来的用法,例如在通讯社生成内容。
- 在联机说明中提取警告中的文本,然后翻译文本以符合当地标准,例如,使用设备的电子学习说明。
使用 Web 门户查看见解 JSON
上传并编制视频索引后,可以使用 JSON 格式获取见解,以便使用 Web 门户进行下载。
- 选择“ 库 ”选项卡。
- 选择要处理的媒体。
- 选择“下载”和“见解”(JSON)。 JSON 文件将在新的浏览器选项卡中打开。
- 查找示例响应中所述的密钥对。
使用 API
- 使用“获取视频索引”请求。 建议传递
&includeSummarizedInsights=false
。 - 查找示例响应中所述的密钥对。
示例响应
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
重要
阅读 所有 VI 功能的透明度说明概述 非常重要。 每个见解也有其自己的透明度说明:
OCR 注释
- 视频索引器每个索引视频的 OCR 限制为 50,000 个单词。 达到限制后,不会生成其他 OCR 结果。
- 仔细考虑结果的准确性,促进更准确的检测,检查图像的质量,低质量图像可能会影响检测到的见解。
- 仔细考虑何时用于执法。 OCR 可能会误读或未检测到文本的某些部分。 为了确保公平和高质量的 VI 决定,将基于 OCR 的自动化与人工监督相结合。
- 提取手写文本时,请避免使用人类和计算机难以读取的签名的 OCR 结果。 使用 OCR 的更好方法是使用它来检测签名是否存在以进一步分析。
- 不要将 OCR 用于可能对个人或组产生严重不利影响的决策。 提取文本的机器学习模型可能会导致文本输出未检测到或不正确。 基于错误输出的决策可能会对必须避免的严重不利影响。 应始终包括人工审查对可能对个人产生严重影响的决定。
OCR 组件
在 OCR 过程中,处理媒体文件中的文本图像,如下所示:
组件 | 定义 |
---|---|
源文件 | 用户上传源文件进行索引。 |
“读取”模型 | 图像在媒体文件和文本中检测到,然后由 Azure AI 服务提取和分析。 |
获取读取结果模型 | 提取文本的输出显示在 JSON 文件中。 |
置信度值 | 每个单词的估计置信度计算为 0 到 1 的范围。 置信度分数表示结果准确性的确定性。 例如,82% 的确定性表示为 0.82 分数。 |