Windows Copilot Runtime 概述

Windows 上的 Microsoft Copilot 堆栈能够利用突破性的 AI 体验将试验、构建和与人交流的能力大众化,并对开发人员进行控制。 Windows 中的 Copilot 显示为停靠在 Windows 桌面上的侧边栏,旨在帮助用户在操作系统中完成操作(如更改 Windows 设置)。 请参阅管理 Windows 中的 Copilot,详细了解如何在 Windows 中为商业环境配置 Copilot。

Windows Copilot Runtime 引入了与利用 AI 的操作系统进行交互的新方法,例如 Microsoft Research 创建的小型语言模型 (SLM),该模型能够提供很多与大型语言模型 (LLM) 相同但更加紧凑、高效的功能,因此它能够在 Windows 本地运行。

作为开发人员,可以将应用与 AI 支持的 Windows 体验(例如 RecallStudio Effects)集成、通过 Windows Copilot Library 使用由设备端模型提供支持的新 API、发现机器学习 (ML) 模型以使用 Visual Studio Code 中的 AI Toolkit 微调自己的自定义数据、使用 ONNX Runtime、PyTorch 或 WebNN 等框架集成自己的 ML 模型,以及通过 DirectML 访问硬件加速功能以提高性能和缩放能力。

Windows Copilot Runtime 和 Windows Copilot Library

有一些新的创新利用 AI 来改进和重新定义 Windows 体验,其中一些 AI 创新已经融入到对 Windows 的使用中,但应用开发人员也可以将其他 AI 创新集成到自己的应用功能中。 这些将 AI 集成到 Windows 应用中的新方法构成了 Windows Copilot Library,即由 AI 支持的一组现成功能和 API,包括:

  • Studio Effects:利用装置 NPU 上运行的由 AI 支持的背景效果、眼神交流更正、自动框架、语音聚焦、模糊、照明和创意筛选器等功能来增强 Windows 设备的相机和音频功能,以保持非常快的性能速度。
  • Recall:让 Windows 设备上的过去活动可供搜索,以使你能够选取离开的地方,无论当时你正在使用应用、编辑文档还是回复电子邮件。
  • Phi Silica:允许你的应用通过 Windows 应用 SDK 连接到设备端 Phi 模型,以执行自然语言处理任务(聊天、算术、代码、推理)。
  • Text Recognition:光学字符识别 (OCR) 可以从图像和文档中提取文本。 例如将 PDF、纸质文档或教学白板图片转换成可编辑的数字文本等任务。
  • 实时字幕翻译:在 Windows 上帮助每一个人(包括耳聋者或耳背者)通过观看口语内容的辅助字幕来更好地了解音频,即使音频内容的语言与系统的首选语言不同。

开发人员将能够访问 Windows 应用 SDK 中提供的这些 API。

除了 Windows Copilot Library 中由 AI 支持的现成 API 以外,我们还提供了有关如何使用机器学习 (ML) 模型来增强应用的指导。 这包括以下主题:

注重责任和示例

我们还创建了一些资源,以帮助开发人员将 AI 集成到 Windows 应用程序中,为此,我们提供了一个示例库、有关如何使用负责任的 AI 的指南,以及一些有助于了解某些术语和概念的高级常见问题解答。

开始将模型添加到 Windows 应用