面向数据科学和数据工程的 Copilot 概述(预览版)
重要
此功能目前为预览版。
用于数据科学和数据工程的 Copilot 是一个 AI 助手,可帮助分析和可视化数据。 它适用于湖屋表和文件、Power BI 数据集和 Pandas/Spark/Fabric 数据帧,可直接在笔记本中提供答案和代码片段。 使用 Copilot 的最有效方法是将数据添加为数据帧。 您可以在聊天面板中提问,AI 将提供您可以复制到笔记本中的回答或代码。 它了解数据的架构和元数据,如果数据加载到数据帧中,则它还了解数据帧中的数据。 可以要求 Copilot 提供数据见解、创建可视化效果代码或为数据转换提供代码,并识别文件名以便于参考。 Copilot 通过消除复杂的编码来简化数据分析。
注意
- 在开始使用 Copilot 之前,管理员需要启用租户切换。 有关详细信息,请参阅 Copilot 租户设置 一文。
- F64 或 P1 容量需要位于 Fabric 区域可用性中列出的其中一个区域。
- 如果租户或容量存在于美国或法国以外的区域,那么除非 Fabric 租户管理员在 Fabric 管理门户中启用了可以在租户的地理区域、合规性边界或国家/地区云实例之外处理发送到 Azure OpenAI 的数据租户设置,否则将默认禁用 Copilot。
- Microsoft Fabric 中的 Copilot 在试用 SKU 上不受支持。 仅支持付费 SKU(F64 或更高版本或 P1 或更高版本)。
- fabric 中的 Copilot 目前正在公共预览版中推出,预计在 2024 年 3 月底之前可供所有客户使用。
- 请参阅 Fabric 和 Power BI 中的 Copilot 概述一文获取更多信息。
面向 Fabric 数据科学的数据科学与数据工程的 Copilot 简介
借助数据科学和数据工程 Copilot,可以与 AI 助手聊天,帮助处理数据分析和可视化任务。 可以在笔记本中向 Copilot 询问有关湖屋表、Power BI 数据集或 Pandas/Spark 数据帧的问题。 Copilot 将使用自然语言或代码片段给出答案。 Copilot 还可以根据任务为你生成特定于数据的代码。 例如,数据科学和数据工程 Copilot 可以生成以下代码:
- 图表创建
- 数据筛选
- 应用转换
- 机器学习模型
首先在笔记本功能区中选择 Copilot 图标。 此时会打开 Copilot 聊天面板,然后笔记本顶部会显示一个新代码单元。 每次在 Fabric 笔记本中加载 Spark 会话时,此单元格都必须运行。 否则,Copilot 体验将无法正常运行。 我们正在评估其他机制,以便在将来的版本中处理此所需的初始化。
使用以下代码运行笔记本顶部的代码单元:
#Run this cell to install the required packages for Copilot
%load_ext dscopilot_installer
%activate_dscopilot
当代码单元成功执行后,你可以使用 Copilot。 每次笔记本中的会话关闭时,必须重新运行笔记本顶部的该代码单元。
若要最大程度地提高 Copilot 有效性,请在笔记本中将表或数据集加载为数据帧。 这样,AI 就可以访问数据并了解其结构和内容。 然后,开始与 AI 聊天。 在笔记本工具栏中选择聊天图标,并在聊天面板中键入问题或请求。 例如,可以询问:
- “此数据集中客户的平均年龄是多少?
- “按区域显示销售条形图”
等等。 Copilot 会给出答案或代码,你可以将其复制并粘贴到笔记本中。 用于数据科学和数据工程的 Copilot 是一种方便、交互式的方式来浏览和分析数据。
使用 Copilot时,还可以在笔记本单元格中调用魔法命令,直接在笔记本中获取输出。 例如,对于响应的自然语言答案,可以使用“%%chat”命令提问,例如:
%%chat
What are some machine learning models that may fit this dataset?
或
%%code
Can you generate code for a logistic regression that fits this data?
面向数据科学与数据工程的 Copilot 还可以感知湖屋中表的架构和元数据。 Copilot 可以在附加湖屋中的数据上下文中提供相关信息。 例如,可以询问:
- “湖屋里有多少张桌子?
- “Customers 表有哪些列?”
如果将湖屋添加到笔记本,Copilot 会回复相关信息。 Copilot 还可以感知添加到附加于笔记本的任何湖屋的文件名称。 可以在聊天中按名称引用这些文件。 例如,如果在你的湖库(lakehouse)中有一个名为 sales.csv 的文件,则可以询问“从 sales.csv创建数据帧”。 Copilot 生成代码并将其显示在聊天面板中。 借助适用于笔记本的 Copilot,可以轻松访问和查询来自不同源的数据。 不需要确切的命令语法来执行此操作。
提示
- 在 Copilot 聊天面板中,可以使用位于聊天面板顶部的扫把“清除”对话。 Copilot 在会话期间会保留任何输入或输出的知识,但如果发现当前内容分散注意力,这会非常有用。
- 使用聊天魔术库配置有关 Copilot的设置,包括隐私设置。 默认共享模式旨在最大化 Copilot 上下文访问权限的共享,因此,如果限制提供给 copilot 的信息,将会直接且显著地影响其响应的相关性。
- Copilot 首次启动时,它提供了一组有用的提示,可以帮助你入门。 他们可以帮助启动你与 Copilot的对话。 若要稍后参考提示,可以使用聊天面板底部的 sparkle 按钮。
- 可以“拖动”copilot 聊天的边栏以展开聊天面板,以便更清楚地查看代码或提高输出的可读性。
局限性
数据科学体验中的 Copilot 功能目前仅限于笔记本。 这些功能包括 Copilot 聊天窗格、可在代码单元中使用的 IPython 魔术命令,以及在代码单元中键入时的自动代码建议。 Copilot 还可以使用语义链接的集成来读取 Power BI 语义模型。
Copilot 有两个关键预期用途:
- 首先,可以要求 Copilot 检查和分析笔记本中的数据(例如,先加载 DataFrame,然后询问 Copilot 关于 DataFrame 中的数据)。
- 二,可以要求 Copilot 生成一系列有关数据分析过程的建议,例如可能相关的预测模型、执行不同类型数据分析的代码以及已完成笔记本的文档。
请记住,使用变化迅速或最近发布的库生成代码可能包括不准确的内容或虚构的部分。