你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
AI 体系结构设计
AI 是一种技术,使机器能够模仿智能人类行为。 计算机可以使用 AI 来:
- 分析数据以创建图像和视频。
- 分析和合成语音。
- 以自然的方式口头交互。
- 进行预测并生成新数据。
可以将 AI 合并到应用程序中,以执行函数或做出传统逻辑或处理无法有效处理的决策。 作为设计解决方案的架构师,了解 AI 和机器学习环境以及如何将 Azure 解决方案集成到工作负载设计中非常重要。
开始使用
Azure 体系结构中心提供可应用于方案的示例体系结构、体系结构指南、体系结构基线和想法。 涉及 AI 和机器学习组件的工作负载应遵循 Azure Well-Architected Framework AI 工作负载 指南。 本指南包括影响 AI 和机器学习工作负载的五大体系结构支柱的原则和设计指南。 应在 Azure 体系结构中心的方案和内容中实施这些建议。
AI 概念
AI 概念包括各种技术和方法,使计算机能够执行通常需要人类智能的任务。 以下部分概述了关键 AI 概念。
算法
算法 或 机器学习算法 是一些代码片段,可帮助人们浏览、分析和查找复杂数据集中的含义。 每个算法都是一组有限的明确分步说明,计算机可以遵循这些指令来实现特定目标。 机器学习模型的目标是建立或发现人类可用于进行预测或分类信息的模式。 算法可以描述如何确定宠物是猫、狗、鱼、鸟还是蜥蜴。 另一种更复杂的算法可以描述如何识别书面或口头语言、分析其字词、将其翻译为其他语言,然后检查翻译的准确性。
选择最适合你的任务的算法系列。 评估算法系列中的各种算法,以找到适合你工作负荷的算法。 有关详细信息,请参阅 什么是机器学习算法?。
机器学习
机器学习 是一种 AI 技术,它使用算法创建预测模型。 这些算法分析数据字段,并从数据中的模式“学习”以生成模型。 然后,模型可以根据新数据做出明智的预测或决策。
根据已知数据对预测模型进行验证,根据特定业务方案的性能指标进行度量,然后根据需要进行调整。 此学习和验证过程被称为“训练”。 通过定期重新训练,机器学习模型会随着时间的推移而改进。
在工作负荷设计中,如果你的方案包括过去可用于预测未来情况的观察,则可以使用机器学习。 这些观察可能是普遍的真理,例如计算机视觉能够区分不同的动物。 或者这些观察可以特定于你的情况,例如计算机视觉,根据过去的保修索赔数据检测出生产线上的潜在装配错误。
有关详细信息,请参阅 什么是机器学习?。
深度学习
深度学习 是一种机器学习,可以通过自己的数据处理进行学习。 与机器学习一样,它还使用算法来分析数据。 但它通过包含许多输入、输出和处理层的人工神经网络分析数据。 每个层都可以以不同的方式处理数据。 一个层的输出将成为下一层的输入。 此过程使深度学习能够创建比传统机器学习更复杂的模型。
深度学习需要大量投资才能生成高度自定义或探索模型。 在将深度学习添加到工作负荷之前,可以考虑本文中的其他解决方案。
有关详细信息,请参阅 什么是深度学习?。
生成式 AI
生成式 AI 训练模型,以基于多种形式的内容(如自然语言、计算机视觉、音频或图像输入)生成原始内容。 使用生成 AI,可以使用日常语言描述所需的输出,模型可以通过创建适当的文本、图像和代码做出响应。 生成式 AI 应用程序的示例包括Microsoft Copilot 和 Azure OpenAI 服务。
Copilot 主要是一个用户界面,可帮助编写代码、文档和其他基于文本的内容。 它基于常用的 OpenAI 模型,并集成到各种Microsoft应用程序和用户体验中。
Azure OpenAI 是一种开发平台即服务,可用于访问 OpenAI 的强大语言模型,例如 o1-preview、o1-mini、GPT-4o、GPT-4o mini、GPT-4 Turbo 和 Vision、GPT-4、GPT-3.5-Turbo 和 Embeddings 模型系列。 可以将这些模型适应特定任务,例如:
- 内容生成。
- 内容摘要。
- 图像理解。
- 语义搜索。
- 用于代码翻译的自然语言。
语言模型
语言模型 是生成 AI 的子集,侧重于自然语言处理任务,例如文本生成和情绪分析。 这些模型根据给定上下文中出现的单词或单词序列的概率来表示自然语言。
常规语言模型在监督学习的环境中用于研究目的,其中模型针对特定任务对标注完善的文本数据集进行训练。 预先训练的语言模型提供了一种可访问的方法来开始使用 AI。 近年来,它们被更广泛地使用。 这些模型通过深度学习神经网络在互联网上的大规模文本集合中进行训练。 您可以在较小的数据集上针对特定任务对它们进行微调。
参数或权重的数量决定了语言模型的大小。 参数会影响模型如何处理输入数据并生成输出。 在训练期间,模型调整权重,以尽量减少其预测与实际数据之间的差异。 此过程是模型学习参数的方式。 模型具有的参数越多,它就越复杂且具有表现力。 但是训练和使用计算成本也更高。
一般来说,小型语言模型通常少于 100 亿个参数,大型语言模型具有 100 多亿个参数。 例如,Microsoft Phi-3 模型系列有三个版本:
- Mini,38 亿参数
- 小规模、70 亿个参数
- 中等,140 亿个参数
有关详细信息,请参阅 语言模型目录。
助手
语言模型的可用性导致了通过数字助手和连接的、特定领域的代理与应用程序和系统交互的新方法的出现。 Copilots 是一种能够集成到应用程序中的生成式 AI 助手,通常以聊天界面的形式出现。 它们为这些应用程序中的常见任务提供场景化支持。
Microsoft Copilot 与各种Microsoft应用程序和用户体验集成。 它基于开放体系结构,其中非Microsoft开发人员可以创建自己的插件来扩展或自定义 Copilot 的用户体验。 合作伙伴开发人员还可以使用相同的开放式体系结构创建自己的协作助手。
有关更多信息,请参见以下资源:
检索增强生成
检索扩充生成(RAG) 是一种体系结构模式,可增强大型语言模型(LLM)(如 ChatGPT)的功能,该模式仅针对公共数据进行训练。 可以使用此模式添加检索系统,该系统在上下文中提供与用户请求相关的背景数据。 信息检索系统提供对语言模型在构建响应时使用的地面数据的控制。 RAG 体系结构可帮助你将生成 AI 的范围限定为源自矢量化文档、图像和其他数据格式的内容。 RAG 不限于矢量搜索存储。 可以使用任何数据存储技术。
有关详细信息,请参阅 设计和开发 RAG 解决方案,选择 Azure 服务进行矢量搜索。
Azure AI 服务
借助 Azure AI 服务,开发人员和组织可以使用现成、预生成和可自定义的 API 和模型来创建智能、市场就绪和负责任的应用程序。 用例包括用于对话、搜索、监视、翻译、语音、视觉和决策的自然语言处理。
有关更多信息,请参见以下资源:
- 选择 Azure AI 服务技术
- Azure AI 服务文档
- 在 Azure 中选择自然语言处理技术
AI 语言模型
LLM(如 OpenAI GPT 模型)是强大的工具,可以跨各种域和任务生成自然语言。 若要选择模型,请考虑数据隐私、道德使用、准确性和偏见等因素。
Phi 开放模型 对于生成式 AI 解决方案而言是小型的、计算密集型较少的模型。 与 LLM 相比,小型语言模型可能更高效、可解释且易于解释。
设计工作负荷时,可以将语言模型用作按流量计费的 API 后面的托管解决方案。 或者,对于许多小型语言模型,您可以在进程内托管这些语言模型,或者至少在与使用者相同的计算资源上托管。 在解决方案中使用语言模型时,请考虑选择语言模型及其可用的托管选项,以帮助确保针对用例优化解决方案。
AI 开发平台和工具
以下 AI 开发平台和工具可帮助你生成、部署和管理机器学习和 AI 模型。
Azure 机器学习
Azure 机器学习是一种机器学习服务,可用于生成和部署模型。 机器学习提供 Web 界面和 SDK,用于大规模训练和部署机器学习模型和管道。 请将这些功能与开放源代码 Python 框架(如 PyTorch、TensorFlow 和 scikit-learn)配合使用。
有关更多信息,请参见以下资源:
Azure 机器学习参考体系结构
基线 OpenAI 端到端聊天参考体系结构 是一种参考体系结构,描述如何使用 OpenAI 的 GPT 模型构建端到端聊天体系结构。
自动化机器学习
自动化机器学习(AutoML) 是自动执行机器学习模型开发的耗时迭代任务的过程。 数据科学家、分析师和开发人员可以使用 AutoML 构建具有高规模、效率和工作效率的机器学习模型,同时维持模型质量。
有关更多信息,请参见以下资源:
- 什么是 AutoML?
- 教程:在机器学习工作室中使用 AutoML 训练分类模型
- 在 Python 中配置 AutoML 试验
- 将 CLI 扩展用于机器学习
MLflow
机器学习工作区与 MLflow 兼容,这意味着可以使用机器学习工作区的方式与使用 MLflow 服务器的方式相同。 此兼容性具有以下优势:
- 机器学习不托管 MLflow 服务器实例,但可以直接使用 MLflow API。
- 无论是否在机器学习中运行,都可以将机器学习工作区用作任何 MLflow 代码的跟踪服务器。 需要将 MLflow 配置为指向应在其中进行跟踪的工作区。
- 可以在机器学习中运行使用 MLflow 的训练例程,而无需进行任何更改。
有关详细信息,请参阅 MLflow 和机器学习 和 MLflow。
生成式 AI 工具
提示流 是一套开发工具,可用于简化生成 AI 应用程序的端到端开发周期,从 ide、原型制作、测试和评估到生产部署和监视。 它通过表达模块化业务流程和流引擎中的操作来支持提示工程。
Azure AI Foundry 可帮助你使用综合平台负责任地试验、开发和部署生成式 AI 应用和 API。 AI Foundry 门户提供对 Azure AI 服务、基础模型、场和资源的访问权限,以帮助构建、训练、微调和部署 AI 模型。 您还可以通过使用提示流来评估模型的响应并组织提示应用程序组件,以提高性能。
Copilot Studio 在 Microsoft 365 中扩展了 Copilot。 可以使用 Copilot Studio 为内部和外部方案生成自定义 copilot。 使用全面的创作画布来设计、测试和发布 Copilot。 可以轻松创建支持生成式 AI 支持的对话,更好地控制现有协作助手的响应,并使用自动化工作流提升生产力。
用于 AI 的数据平台
以下平台提供用于数据移动、处理、引入、转换、实时分析和报告的综合解决方案。
Microsoft Fabric
Microsoft Fabric 是一个端到端分析和数据平台,适用于需要统一解决方案的企业。 可以向工作负荷团队授予对 Fabric 中的数据的访问权限。 该平台涵盖数据移动、处理、引入、转换、实时事件路由和报表生成。 它提供全面的服务套件,包括 Fabric 数据工程师、Fabric 数据工厂、Fabric 数据科学、Fabric Real-Time 智能、Fabric 数据仓库和 Fabric 数据库。
Fabric 将单独的组件集成到一个统一的堆栈中。 可以使用 OneLake 集中数据存储,而不是依赖不同的数据库或数据仓库。 AI 功能嵌入 Fabric 中,无需手动集成。
有关更多信息,请参见以下资源:
- 什么是 Fabric?
- 学习路径:Fabric 入门
- Fabric 中的 AI 服务
- 将 Fabric 中的 Azure OpenAI 与 REST API 配合使用
- 使用 Fabric 用于生成式 AI:构建和改进 RAG 系统的指南
- 使用 Fabric 生成自定义 AI 应用程序:为增强语言模型实现 RAG
Fabric 中的 Copilots
可以使用 Copilot 和其他生成式 AI 功能来转换和分析数据、生成见解,并在 Fabric 和 Power BI 中创建可视化效果和报表。 可以生成自己的协作助手,也可以选择以下预生成的协作助手之一:
- Fabric 中的 Copilot
- 面向数据科学和数据工程师的 Copilot
- 数据工厂的 Copilot
- 数据仓库的 Copilot
- 适用于 Power BI 的 Copilot
- 用于实时智能的 Copilot
Fabric 中的 AI 技能
可以使用 Fabric AI 技能功能来配置生成 AI 系统,以生成回答有关数据问题的查询。 配置 AI 技能后,可以与同事共享,然后他们可以使用简单的语言提问。 AI 根据其问题生成对回答这些问题的数据的查询。
有关更多信息,请参见以下资源:
适用于 AI 的基于 Apache Spark 的数据平台
Apache Spark 是并行处理框架,支持使用内存中处理来提升大数据分析应用程序的性能。 Spark 为内存中群集计算提供基本构建基块。 Spark 作业可以将数据加载并缓存到内存中,并重复查询数据,这比基于磁盘的应用程序(如 Hadoop)更快。
Microsoft Fabric 中的 Apache Spark
Fabric Runtime 是基于 Apache Spark 的 Azure 集成平台,可实现数据工程和数据科学体验的实现和管理。 Fabric 运行时结合了来自内部和开源源的关键组件,该组件提供全面的解决方案。
Fabric 运行时具有以下关键组件:
Apache Spark 是一个功能强大的开源分布式计算库,可实现大规模数据处理和分析任务。 Apache Spark 为数据工程和数据科学体验提供了通用且高性能的平台。
Delta Lake 是一个开源存储层,它与 Apache Spark 集成原子性、一致性、隔离性和持久性(ACID)事务和其他数据可靠性功能。 Delta Lake 集成在 Fabric 运行时中,增强了数据处理能力,并有助于确保多个并发操作之间的数据一致性。
Java、Scala、Python 和 R 的默认级别包是支持多种编程语言和环境的包。 这些包会自动安装和配置,因此开发人员可以应用其首选编程语言来处理数据处理任务。
Fabric 运行时基于可靠的开源作系统构建,可帮助确保与各种硬件配置和系统要求兼容。
有关详细信息,请参阅 Fabric 中的Apache Spark 运行时。
用于机器学习的 Azure Databricks Runtime
Azure Databricks 是一个基于 Apache Spark 的分析平台,该平台具有一键式设置、简化的工作流和交互式工作区,用于数据科学家、工程师和业务分析师之间的协作。
可以使用 用于机器学习的 Databricks Runtime 启动 Databricks 群集,其中包含分布式训练所需的所有库。 此功能为机器学习和数据科学提供了一个环境。 它包含多个常用库,包括 TensorFlow、PyTorch、Keras 和 XGBoost。 它还支持通过 Horovod 进行分布式训练。
有关更多信息,请参见以下资源:
- Azure Databricks 文档
- Azure Databricks 中的机器学习功能
- Azure Databricks 上 Spark 机器学习模型的批量评分
- Azure Databricks 上的深度学习概述
Azure HDInsight 中的 Apache Spark
Azure HDInsight 中的 Apache Spark 是 Microsoft 的 Apache Spark 在云中的实现。 HDInsight 中的 Spark 群集与 Azure 存储和 Azure Data Lake Storage 兼容,因此可以使用 HDInsight Spark 群集来处理存储在 Azure 中的数据。
SynapseML(前称为 MMLSpark)是适用于 Apache Spark 的Microsoft机器学习库。 这是一个开源库,在 Spark 生态系统中添加了许多深度学习和数据科学工具、网络功能和生产级性能。
有关更多信息,请参见以下资源:
- SynapseML 特性和功能
- HDInsight 概述
- 教程:在 HDInsight 中生成 Apache Spark 机器学习应用程序
- HDInsight 上的 Apache Spark 最佳做法
- 配置 HDInsight Apache Spark 群集设置
- 在 HDInsight 上创建 Apache Spark 机器学习管道
适用于 AI 的数据存储
可以使用以下平台有效地存储、访问和分析大量数据。
Fabric OneLake
Fabric 中的 OneLake 是一个统一的逻辑数据湖,可针对整个组织定制。 它充当所有分析数据的中心枢纽,并包含在每个 Fabric 租户中。 OneLake in Fabric 是基于 Data Lake Storage 的基础构建的。
Fabric 中的 OneLake:
- 支持结构化和非结构化文件类型。
- 以 Delta-Parquet 格式存储所有表格数据。
- 在默认情况下管理的租户边界内提供单个数据湖。
- 支持在租户中创建工作区,以便组织可以分配所有权和访问策略。
- 支持创建各种数据项,例如湖屋和仓库,你可从中访问数据。
有关详细信息,请参阅《OneLake - 面向数据的 OneDrive》。
Data Lake Storage
Data Lake Storage 是一个集中式存储库,可在其中存储结构化和非结构化数据。 使用 Data Lake 在单个位置快速轻松地存储、访问和分析各种数据。 无需使数据符合现有结构。 相反,您可以将您的数据存储为原始或本机格式,通常以文件或二进制大型对象(Blob)的形式。
Data Lake Storage 提供文件系统语义、文件级安全性和缩放。 由于这些功能是基于 Azure Blob 存储构建的,因此还可以获得具有高可用性和灾难恢复功能的低成本分层存储。
Data Lake Storage 使用 Azure 存储的基础结构来创建在 Azure 上构建企业数据湖的基础。 Data Lake Storage 可以服务多 TB 的信息,同时保持数百千兆位的吞吐量,以便可以管理大量数据。
有关更多信息,请参见以下资源:
AI 数据处理
可以使用以下工具为机器学习和 AI 应用程序准备数据。 确保数据干净且结构化,以便将其用于高级分析。
织物数据工厂
可以使用 Fabric 数据工厂从多个数据源引入、准备和转换数据,例如数据库、数据仓库、Lakehouse 和实时数据流。 设计工作负载时,此服务可帮助你满足数据操作要求。
结构数据工厂支持代码解决方案和无代码或低代码解决方案:
使用 数据管道 在云规模中创建工作流功能。 使用拖放接口生成工作流,这些工作流可以刷新数据流、移动 PB 字节大小的数据以及定义控制流管道。
使用 数据流 作为低代码接口来引入来自数百个数据源的数据,并使用 300 多个数据转换对其进行转换。
有关详细信息,请参阅 数据工厂端到端方案:简介和体系结构。
Azure Databricks
可以使用 Databricks 数据智能平台编写代码,以使用特征工程创建机器学习工作流。 特征工程 是将原始数据转换为可用于训练机器学习模型的功能的过程。 Databricks Data Intelligence Platform 包括支持特征工程的关键功能:
数据管道 引入原始数据、创建特征表、训练模型和执行批处理推理。 在 Unity 目录中使用特征工程来训练和记录模型时,模型将打包为特征元数据。 当你使用该模型进行批量评分或联机推理时,它会自动检索特征值。 调用方无需了解数值或包含查找或合并特征的逻辑来为新数据评分。
模型和特性服务终结点 可以立即访问,并且延迟只有毫秒级。
监控 有助于确保数据和模型的准确性和性能。
还可以使用 马赛克 AI 矢量搜索 来存储和检索嵌入内容。 嵌入对于需要相似性搜索的应用程序至关重要,例如 RAG、建议系统和图像识别。
有关详细信息,请参阅 Azure Databricks:为机器学习和 AI提供数据。
适用于 AI 的数据连接器
Azure 数据工厂和 Azure Synapse Analytics 管道通过复制、数据流、查找、获取元数据和删除活动来支持许多数据存储和格式。 若要查看可用的数据存储连接器、支持的功能(包括相应的配置)和通用开放数据库连接选项,请参阅 Azure 数据工厂和 Azure Synapse Analytics 连接器概述。
自定义 AI
自定义 AI 解决方案可帮助你解决特定的业务需求和挑战。 以下部分概述了可用于生成和管理自定义 AI 模型的各种工具和服务。
Azure 机器学习
Azure 机器学习是一种用于加速和管理机器学习项目生命周期的云服务。 机器学习专业人员、数据科学家和工程师可以在日常工作流中使用此服务来训练和部署模型和管理机器学习作。
机器学习提供以下功能:
算法选择: 某些算法对数据结构或所需结果做出具体假设。 选择符合需求的算法,以便可以获得更有用的结果、更准确的预测和更快的训练时间。 有关详细信息,请参阅 如何为机器学习选择算法。
超参数优化或优化: 可以使用此手动过程查找导致最佳性能的超参数配置。 此优化会产生大量的计算成本。 超参数 是可在模型训练过程中提供控制的可调整参数。 例如,可以选择隐藏层数和神经网络每个层中的节点数。 模型性能很大程度上取决于超参数。
可以使用机器学习自动执行超参数优化并并行运行试验,以高效优化超参数。
有关更多信息,请参见以下资源:
模型训练: 可以迭代地使用算法来创建或 教授 模型。 训练模型后,可以使用它们来分析数据并进行预测。
在训练阶段:
一组高质量的已知数据被标记,以便可以识别各个字段。
配置为进行特定预测的算法接收标记的数据。
该算法输出一个模型,该模型捕获它在数据中标识的模式。 模型使用一组参数来表示这些模式。
在验证期间:
新数据已标记并用于测试模型。
算法根据需要进行调整,并可能执行更多训练。
测试阶段使用实际数据,无需任何标记或预先选择的目标。 如果模型的结果准确,则可以使用它并可以部署。
有关更多信息,请参见以下资源:
AutoML: 此过程自动执行机器学习模型开发的耗时迭代任务。 它可以显著减少生成生产就绪机器学习模型所需的时间。 AutoML 可帮助完成模型选择、超参数优化、模型训练和其他任务,而无需广泛的编程或域知识。
当希望机器学习使用指定的目标指标来训练和优化模型时,可以使用 AutoML。 无需数据科学专业知识来识别问题的端到端机器学习管道。
跨行业的机器学习专业人员和开发人员可以使用 AutoML 来:
- 在没有广泛的编程或机器学习知识的情况下实现机器学习解决方案。
- 节省时间和资源。
- 应用数据科学最佳做法。
- 提供敏捷的问题解决。
有关详细信息,请参阅 什么是 AutoML?。
评分: 此过程(也称为 预测)使用经过训练的机器学习模型基于新输入数据生成值。 这些值或分数可以表示未来值的预测,但它们也可能表示可能属于类别或结果。
有关更多信息,请参见以下资源:
特征工程和特征化: 训练数据由行和列组成。 每一行都是一条观测或记录,而每行的列则是用于描述每条记录的特征。 通常,会选择对数据中模式的特点描述效果最佳的特征来创建预测模型。
尽管可以使用许多原始数据字段来训练模型,但可能需要创建其他工程特征,以提供信息以更好地区分数据中的模式。 此过程称为特征工程,你可以使用数据的域知识来创建有助于机器学习算法更好地学习的功能。
在机器学习中,应用数据缩放和规范化技术,使特征工程更加轻松。 在 AutoML 试验中,这些技术和特征工程统称为特征化。 有关详细信息,请参阅自动化机器学习 数据特征化。
Azure OpenAI
在 Azure OpenAI 中,可以使用称为“微调” 的过程为个人数据集定制 OpenAI 模型。 此自定义步骤通过提供以下功能来优化服务:
- 与仅使用提示工程相比,结果质量更高。
- 在超过模型最大请求上下文限制的情况下训练更多示例的能力通常是允许的。
- 由于提示时间更短,因此节省了令牌。
- 较低的延迟请求,尤其是在使用较小的模型时。
有关更多信息,请参见以下资源:
用于自定义 AI 的 Azure AI 服务
Azure AI 服务 提供生成自定义 AI 模型和应用程序的功能。 以下部分概述了这些关键功能。
自定义语音
自定义语音 是 Azure AI 语音服务的一项功能。 可以使用自定义语音来评估和提高应用程序和产品的语音识别的准确性。 使用自定义语音模型实时语音转文本、语音翻译和批量听录。
默认情况下,语音识别使用通用语言模型作为基本模型。 此模型使用Microsoft拥有的数据进行训练,并反映常用口语。 基本模型通过方言和语音进行预训练,以适应各种常见领域。 发出语音识别请求时,默认使用支持语言的最新基本模型。 基础模型在大多数语音识别场景中都效果良好。
可以使用自定义模型来扩充基本模型。 例如,可以通过提供文本数据来训练模型来提高对特定于应用程序的域特定词汇的识别。 还可以通过提供音频数据(包括参考听录)来提高应用程序特定音频条件的识别度。
如果数据遵循模式,则可以使用结构化文本来训练模型。 可以使用自定义反向文本规范化、自定义重写和自定义不雅筛选来指定自定义发音和自定义显示文本格式。
自定义翻译器
自定义翻译 是 Azure AI Translator 服务 的一项功能。 企业、应用开发人员和语言服务提供商可以使用自定义翻译来构建自定义神经机器翻译(NMT)系统。 自定义的翻译系统可无缝集成到现有的应用程序、工作流和网站中。
可以使用此功能在英语中生成和发布自定义翻译系统。 自定义翻译支持超过三十种语言,这些语言直接映射到神经机器翻译(NMT)的语言。 有关语言的完整列表,请参阅 翻译语言支持。
自定义翻译器提供以下功能。
Feature | 说明 |
---|---|
应用 NMT 技术 | 使用来自自定义翻译程序的神经机器翻译(NMT)来改进您的翻译。 |
生成了解业务术语的系统 | 使用并行文档自定义并生成翻译系统,该系统了解在你的业务和行业中使用的术语。 |
使用字典来生成模型 | 如果没有训练数据集,则仅使用字典数据训练模型。 |
与他人协作 | 通过与各种人员共享工作来与团队协作。 |
访问自定义翻译模型 | 随时通过Microsoft文本翻译 API V3 使用现有应用程序或程序访问自定义翻译模型。 |
Azure AI 文档智能自定义模型
Azure AI 文档智能 使用高级机器学习技术来识别文档、检测和提取表单和文档的信息,并在结构化 JSON 输出中返回提取的数据。 使用文档智能利用预生成或预先训练的文档分析模型或训练的独立自定义模型。
文档智能自定义模型 包括自定义分类模型,以便在调用提取模型之前识别文档类型。 可以将分类模型与自定义提取模型配对,以便从特定于业务的窗体和文档分析和提取字段。 组合独立自定义提取模型以创建 组合模型。
自定义 AI 工具
预生成的 AI 模型非常有用且越来越灵活,但优化 AI 的最佳方法是根据特定需求定制模型。 创建自定义 AI 模型的两个主要工具是生成 AI 和传统机器学习。
Azure 机器学习工作室
Azure 机器学习工作室 是一项云服务,用于加速和管理机器学习项目生命周期。 机器学习专业人员、数据科学家和工程师可以在日常工作流中使用它来训练和部署模型和管理机器学习作。
使用任何类型的计算(包括 Spark 和 GPU)生成和训练机器学习模型,用于云规模的大型 AI 工作负载。
运行 AutoML 并使用拖放 UI 进行低代码机器学习。
实现端到端机器学习操作和可重复的管道。
使用负责任的 AI 仪表板进行偏差检测和错误分析。
协调和管理提示工程和 LLM 流。
通过 REST API 终结点、实时推理和批处理推理部署模型。
使用中心工作区来共享计算能力、配额、安全性和与公司资源的连接,并集中管理 IT 的治理。 设置一次中心,然后直接从工作室为每个项目创建安全工作区。 使用中心在工作室和 AI Foundry 门户中管理团队的工作。
AI Foundry
AI Foundry 可帮助你利用广泛的 Azure AI 产品/服务的强大功能有效地构建和部署自定义生成 AI 应用程序。
作为一个团队进行构建。 AI Foundry 中心提供企业级安全性和协作环境,其中包括与预先训练的模型、数据和计算的共享资源和连接。
安排你的工作。 AI Foundry 项目帮助你保存状态,这样你就可以从最初构想迭代到第一个原型和首次生产部署。 轻松邀请他人与你协作。
使用首选的开发平台和框架,包括 GitHub、Visual Studio Code、LangChain、语义内核和 AutoGen。
从 1,600 多个模型中发现并设定基准。
通过无服务器 API 和托管微调预配模型即服务 (MaaS)。
合并多种模型、数据源和形式。
使用受保护的企业数据生成 RAG,而无需微调。
协调和管理提示工程和 LLM 流。
通过可配置的筛选器和控制设计和保护应用和 API。
使用内置和自定义评估流评估模型响应。
将 AI 创新部署到 Azure 托管的基础结构,以跨环境持续监视和管理。
持续监控已部署应用在生产环境中的安全性、质量以及令牌的消耗情况。
有关详细信息,请参阅 AI Foundry 门户与机器学习工作室。
AI Foundry 门户中的提示流
AI Foundry 门户中的提示流 是一种开发工具,可用于简化由 LLM 提供支持的 AI 应用程序的整个开发周期。 提示流提供一个综合性的解决方案,用于简化 AI 应用程序的原型设计、试验、迭代和部署过程。
“提示流”是一个可以用来生成、自定义或运行流程的功能。
流是可实现 AI 逻辑的指令集。 通过工具创建或运行工作流,例如预生成的画布或 LangChain。 可以将流的迭代保存为资产。 部署流后,它将成为 API。 并非所有流都是提示流。 提示流是创建流的一种方法。
提示是发送到模型的输入数据包。 它由用户输入、系统消息和任何示例组成。 用户输入是在聊天窗口中提交的文本。 系统消息是一组用于限定其行为和功能的模型的指令。
示例流是一个简单的预生成的业务流程流,它显示了流的工作原理。 可以自定义示例流。
示例提示是特定方案的已定义提示,你可以从库复制,并在提示设计中使用 as-is 或修改它。
自定义 AI 代码语言
AI 的核心概念是使用算法来分析数据和生成模型,以有用的方式描述或评分。 开发人员和数据科学家(有时是其他算法)使用编程代码编写算法。 用于 AI 开发的最常用的两种编程语言是 Python 和 R。
Python 是一种通用的高级编程语言。 其语法简单易学,强调可读性。 没有编译步骤。 Python 具有大型标准库,它支持添加模块和包的功能。 此功能鼓励模块化,并允许在需要时扩展功能。 适用于 Python 的 AI 和机器学习库形成了一个大型且不断增长的生态系统,其中包括众多在 Azure 中的库。
有关更多信息,请参见以下资源:
- Azure 产品主页上的 Python
- 面向 Python 开发人员的 Azure
- 适用于 Python 的 机器学习 SDK
- 有关机器学习与 Python 和 Notebooks 结合使用的简介
- 适用于 Python 的 scikit-learn 开源机器学习库
- PyTorch 开源 Python 库
- TensorFlow 开源符号数学库
- 教程:在 Azure Functions 中使用 Python 和 TensorFlow 应用机器学习模型
R 是统计计算和图形的语言和环境。 你可以将其用于从在线映射广泛的社交和营销趋势到开发金融和气候模型等一切。
Microsoft完全采用 R 编程语言,并为 R 开发人员提供了许多在 Azure 中运行其代码的选项。
有关详细信息,请参阅 在机器学习上以交互方式使用 R。
有关 Azure 上的自定义 AI 的一般信息,请参阅以下资源:
- GitHub 上的 Microsoft AI:示例、参考体系结构和最佳做法
- 适用于 Python 的 机器学习 SDK
- 机器学习示例存储库
- 使用机器学习 CLI v2 训练 R 模型
客户案例
许多行业以创新和鼓舞人心的方式应用 AI。 请考虑以下客户案例研究和成功案例:
- 大众:机器翻译将大众汽车翻译成60种语言
- 使用 Azure OpenAI 的 Kry 为所有人提供医疗保健
- PIMCO 通过基于 Azure AI 构建的 AI 驱动的搜索平台提升客户端服务
- Legrand 和 Azure OpenAI:使用 AI 驱动的工具为更智能的解决方案提供支持
- C.H. Robinson 利用 Azure AI 克服了阻碍物流业自动化的数十年障碍
有关 Microsoft AI 的一般信息
详细了解 Microsoft AI,并随时了解相关新闻: