你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
选择 Azure AI 目标语言处理技术
Azure AI 服务通过现成的预生成可定制 API 和模型,帮助开发人员和组织快速创建智能、前沿、面向市场且负责任的应用程序。
本文介绍提供目标语言处理功能的 Azure AI 服务,例如自然语言处理 (NLP)、文本分析、语言理解、翻译和文档数据提取。 Azure AI 语言是 Azure AI 服务中最广泛的类别之一。 可以在工作负载中使用 API 来整合语言功能,如命名实体识别、情感分析、语言检测和文本摘要。
服务
以下服务为 Azure AI 服务提供目标语言处理功能:
Azure AI 语言为文本分析提供自然语言处理。
- 当需要处理结构化或非结构化文档,以完成所描述的各种语言相关任务时,请使用 Azure AI 语言服务。
- 如果需要通过聊天搜索文档、检查内容安全性或翻译文档,请不要使用语言服务。
Azure AI 翻译是一项机器翻译服务。 它可以执行实时文本翻译、批处理和单个文件文档翻译以及自定义翻译,使你能够为方案整合专业术语或行业特定语言。 它支持多种语言。
- 当需要专门进行翻译时,请使用翻译器服务。 虽然可以使用其他常规用途基础语言模型来执行翻译,但将翻译器用于其专用用途可以证明更可靠有效,并且通过使用有针对性的翻译模型可以更具成本效益。
- 如果你需要参与聊天、分析情绪内容或内容审核,请不要使用翻译器服务。 对于情绪分析,请改用语言服务。 对于内容审核,请使用内容安全服务。
Azure AI 文档智能是一项可将图像直接转换为电子表单的服务。 可以指定预期的字段,然后搜索你提供的图像,在没有人为干预的情况下捕获这些字段。 该服务托管许多预生成模型,还允许你生成自己的自定义表单模型。
- 当确切地知道需要从扫描的文档中提取哪些字段以适当填充电子表单时,请使用 文档智能服务。
- 使用文档智能在各种文档库中识别关键结构(页眉、页脚、分页符等),以进一步以编程方式与文档交互,例如在检索增强生成 (RAG) 实现中。
- 请不要将文档智能服务用作实时搜索 API。
Azure AI 语言
Azure AI 语言是基于云的服务,它提供自然语言处理 (NLP) 功能,可用于理解和分析文本。 使用此服务可帮助使用基于 Web 的 Language Studio、REST API 和客户端库生成智能应用程序。
功能
下表提供了 Azure AI 语言中可用的功能列表。
功能 | 说明 |
---|---|
自定义问题解答 | 查找用户输入的最合适答案,通常用于生成对话客户端应用程序,例如社交媒体应用程序、聊天机器人和支持语音的桌面应用程序。 |
自定义文本分类 | 用于构建自定义 AI 模型,以将非结构化文本文档分类到你定义的自定义类中。 |
对话语言理解 (CLU) | 用于生成自定义自然语言理解模型,来预测传入言语的整体意向,并从中提取重要信息。 |
实体链接 | 消除非结构化文本中的实体(单词或短语)的身份的歧义,并返回指向维基百科的链接。 |
语言检测 | 检测文档是用哪种语言编写的,并返回各种语言、变体、方言和一些区域/文化语言的语言代码。 |
关键短语提取 | 评估并返回非结构化文本中的主要概念,并将其作为列表返回。 |
命名实体识别 (NER) | 在多个预定义类别组中对非结构化文本中的实体(字词或短语)进行分类。 例如:人员、事件、地点、日期等。 |
业务流程工作流 | 用于连接对话语言理解 (CLU)。 |
个人身份 (PII) 和健康 (PHI) 信息检测 | 识别、分类和编辑非结构化文本文档和对话记录中的敏感信息。 例如:电话号码、电子邮件地址和各种形式的标识信息等。 |
情绪分析和观点挖掘 | 可帮助你通过挖掘文本中有关积极情绪或消极情绪的线索,来了解用户对品牌或主题的看法,并可以将它们与文本的特定方面相关联。 |
汇总 | 使用抽取式文本摘要生成文档摘要和对话听录。 它会提取共同表示原始内容中最重要或相关信息的句子。 |
健康状况文本分析 | 从非结构化文本(如医生的备注、出院摘要、临床文档和电子健康状况记录)中提取和标记相关医疗信息。 设计工作负载时,评估此云托管功能的处理位置和数据驻留,以确保它符合合规性预期。 某些工作负荷的容量可能会受到限制,以便将医疗保健数据发送到云托管的平台。 可以将此 API 用作 Docker 容器来托管在云中或本地自己的计算中,这有助于解决涉及 PaaS 的合规性问题。 有关详细信息,请参阅使用健康状况文本分析容器 |
用例
下表提供了 Azure AI 语言服务可能用例的列表。
*如果某种功能是可自定义的,你可以使用我们的工具来训练 AI 模型,以专门适应你的数据。 否则,功能是预先配置的,这意味着它使用的 AI 模型无法更改。 你只需要发送数据,并在应用程序中使用该功能的输出即可。
Azure AI 翻译器
Azure AI 翻译是一项机器翻译服务,是 Azure AI 服务系列的一部分。 翻译器为许多 Microsoft 产品和服务提供支持。
功能
下表提供了 Azure AI 翻译中可用的功能列表。
功能 | 说明 |
---|---|
文本翻译 | 在支持的源语言和目标语言之间实时执行文本翻译。 创建动态字典并了解如何使用翻译器 API 防止翻译。 |
文档翻译 | 异步批量翻译:翻译批量文件和复杂文件,同时保留原始文档的结构和格式。 批量翻译过程需要一个 Azure Blob 存储帐户,其中包含源文档和翻译文档的容器。 同步翻译单个文件:单独翻译单个文档文件或与术语表文件一起翻译,同时保留原始文档的结构和格式。 文件翻译过程不需要 Azure Blob 存储帐户。 最终响应包含翻译后的文档,会直接返回给调用客户端。 |
自定义翻译器 | 构建自定义模型以翻译特定于领域和行业的语言、术语和样式。 为自定义翻译创建字典(短语或句子)。 |
用例
下表提供了 Azure AI 翻译服务可能用例的列表。
用例 | 文档 |
---|---|
翻译行业特定的文本。 | AI 服务自定义翻译器 |
翻译非特定于行业的通用文本。 | 什么是 Azure 文本翻译 |
Azure AI 文档智能
Azure AI 语言是基于云的服务,它提供自然语言处理 (NLP) 功能,可用于理解和分析文本。 使用此服务可帮助使用基于 Web 的 Language Studio、REST API 和客户端库生成智能应用程序。
功能
下表提供了 AI 文档智能服务中提供的某些功能的列表。
功能 | 说明 |
---|---|
名片提取 | 文档智能名片模型将光学字符识别 (OCR) 功能与深度学习模型相结合,可从名片图像中分析和提取数据。 该 API 可分析打印的名片,提取名字、姓氏、公司名称、电子邮件地址和电话号码等关键信息,并返回结构化的 JSON 数据表示形式。 |
合同模型提取 | 文档智能合同模型使用光学字符识别 (OCR) 功能来分析和提取一组选定的重要合同实体中的关键字段和行项目。 合同可以采用各种格式和质量,包括手机拍摄的图像、扫描文档和数字 PDF。 API分析文档文本; 提取关键信息,例如当事人、司法管辖区、合同 ID 和标题;并返回结构化 JSON 数据表示。 该模型当前支持英语文档格式。 |
信用卡提取 | 文档智能信用卡/借记卡模型使用光学字符识别 (OCR) 功能来分析和提取信用卡和借记卡中的关键字段。 信用卡和借记卡可以采用各种格式和质量,包括手机拍摄的图像、扫描文档和数字 PDF。 API 分析文档文本;提取卡号、发卡行、到期日期等关键信息;并返回结构化 JSON 数据表示形式。 该模型当前支持英语文档格式。 |
医疗保险卡提取 | 文档智能医疗保险卡模型将光学字符识别 (OCR) 功能与深度学习模型相结合,可从美国医疗保险卡中分析和提取关键信息。 医疗保险卡是护理处理的关键文档,可对患者登记、金融保险范围信息、无现金付款和保险索赔处理进行数字分析。 医疗保险卡模型可分析医疗保险卡图像;提取保险公司、参保人、处方和组号等关键信息;以及返回结构化 JSON 表示形式。 医疗保险卡能够以各种格式和质量呈现,包括手机拍摄的图像、扫描文档和数字 PDF。 |
美国税务文档提取 | 文档智能合同模型使用光学字符识别 (OCR) 功能来分析和提取一组选定的税务文档中的关键字段和行项。 税务文档可以是各种格式和质量的,包括手机拍摄的图像、扫描的文档和数字 PDF。 该 API 可分析文档文本,提取客户姓名、帐单邮寄地址、截止日期和未付金额等关键信息,并返回结构化的 JSON 数据表示形式。 该模型目前支持某些英语税务文档格式。 |
更多... | Azure AI 文档智能支持多种模型,让你能够向应用和流添加智能文档处理。 你可以使用预生成的特定于域的模型,或者训练根据特定业务需求和用例定制的自定义模型。 文档智能可与 REST API 或 Python、C#、Java 和 JavaScript 客户端库一起使用。 |
若要详细了解如何选择适用于你的方案的模型,请参阅应该选择哪个模型?