你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

监视评估指标说明和用例

在本文中,你将了解在 Azure 机器学习中监视和评估生成式 AI 模型时使用的指标,以及使用生成式 AI 模型监视的建议做法。

重要

监视功能目前以公共预览版提供。 此预览版没有附带服务级别协议,建议不要用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

模型监视可跟踪生产中的模型性能,旨在从数据科学和操作角度进行了解。 为了实施监视,Azure 机器学习使用通过对流式处理数据的数据分析来获取的监视信号。 每个监视信号都有一个或多个指标。 你可以为这些指标设置阈值,以便通过 Azure 机器学习或 Azure Monitor 接收有关模型或数据异常的警报。

真实性

真实性可评估模型生成的答案与来自输入源的信息的一致程度。 答案将会作为声明根据用户定义的基本事实源中的上下文进行验证:即使答案为 true(事实正确),如果无法根据源文本进行验证,也会将其评分为不真实。 响应则作为声明根据基本事实源(例如输入源或数据库)中的“上下文”进行验证。

  • 在以下情况下使用:你担心应用程序生成的信息未包含在生成式 AI 的训练知识中(也称为无法验证的信息)。|
  • 如何解读:如果模型的答案是高度真实的,则指示 AI 系统响应中涵盖的事实可由输入源或内部数据库进行验证。 相反,低真实性分数则表明输入源或内部数据库可能无法充分支持或验证 AI 系统响应中提到的事实。 在这种情况下,模型生成的答案可能仅基于其预先训练的知识,这可能与给定输入的特定上下文或领域不一致
  • 缩放:
    • 1 =“非真实”:表示输入源或内部数据库无法验证响应。
    • 5 =“完全真实性”表示 AI 系统响应中涵盖的事实可由输入源或内部数据库验证。

相关性

相关性指标可衡量模型生成的响应与给定问题相关和直接相关的程度。 当用户与生成式 AI 模型交互时,他们会提出问题或输入提示,期望获得有意义且符合上下文的答案。

  • 在以下情况下使用:你希望实现应用程序答案的高相关性,以增强生成式 AI 系统的用户体验和效用。
  • 如何解读:答案的分数取决于其从基本事实源的上下文中捕获问题关键点的能力。 如果模型的答案高度相关,则指示 AI 系统理解了输入,并且可以生成一致且符合上下文的输出。 相反,低相关性分数则表明生成的响应可能是偏离主题、缺少上下文或未能充分解决用户的预期查询。  
  • 缩放:
    • 1 =“不相关”表示生成的响应可能偏离主题、缺少上下文或无法充分解决用户的预期查询。  
    • 5 =“完全相关”表明输出符合上下文。

一致性

连贯性可评估语言模型可以在多大程度上生成流畅、可自然读取且类似于人类语言的输出。 机器人会在多大程度上使用简单而适当的语言并避免不必要的或混淆的信息,以简短而清晰的方式传达其消息? 用户理解和跟踪机器人响应的难易程度如何,以及它们与用户的需求和期望的匹配程度如何?

  • 在以下情况下使用:你希望在实际应用中测试模型生成的响应的可读性和用户友好性。
  • 如何解读:如果模型的答案高度连贯,则表明 AI 系统生成了无缝、结构良好且转换顺畅的文本。 全文上下文一致会增强可读性和理解性。 低连贯性意味着模型预测答案中的句子质量较差,并且它们无法自然地组合在一起。 生成的文本可能缺少逻辑流,并且句子可能看起来杂乱无章,因此读者难以理解整体上下文或预期信息。 答案的评分依据是其清晰性、简洁性、语言适当性,以及匹配定义的用户需求和期望的能力
  • 缩放:
    • 1 =“不连贯”:表明模型预测答案中的句子质量较差,并且它们无法自然地组合在一起。 生成的文本可能缺少逻辑流,并且句子可能看起来杂乱无章,因此读者难以理解整体上下文或预期信息。
    • 5 =“完全连贯”:表明 AI 系统生成的文本无缝、结构良好且转换顺畅,全文上下文连贯,增强了可读性和理解性。

流畅度

流利度可评估生成式 AI 预测答案的语言熟练程度。 它评估生成的文本在多大程度上符合语法规则、句法结构和用词适当,从而产生语言正确和自然的响应。 答案的衡量依据是单个句子的质量以及它们是否写得很好、语法是否正确。 在评估语言模型生成符合正确语法、句法和词汇用法的文本的能力时,此指标非常有用。

  • 在以下情况下使用:你想要评估生成式 AI 预测答案的语法和语言准确度。
  • 如何解读:如果模型的答案高度连贯,则表明 AI 系统遵循语法规则并且用词适当。 全文上下文一致会增强可读性和理解性。 相反,低流利度分数则表示存在语法错误和拙劣的措辞,导致文本不太适合实际应用。  
  • 缩放:
    • 1 =“断续”表示存在语法错误和拙劣措辞,导致文本不太适合实际应用。  
    • 5 =“完全流利”表示 AI 系统遵循语法规则且用词适当。 全文上下文一致会增强可读性和理解性。

相似度

相似性可量化基本事实句子(或文档)与 AI 模型生成的预测句子之间的相似性。 它是通过首先计算基本事实和模型预测的句子级嵌入来计算的。 这些嵌入可捕获句子的语义和上下文,用于表示句子的高维矢量表示形式。

  • 在以下情况下使用:你希望客观评估 AI 模型的性能(适用于你有权访问基本事实所需响应的文本生成任务)。 使用 Ada 相似性,可以将生成的文本与所需内容进行比较。
  • 如何解读:通过捕获与给定问题的基本事实答案相同的信息和含义,依据与基本事实答案的等效性对答案进行评分。 高 Ada 相似性分数表明模型的预测在上下文方面与基本事实相似,指示结果准确且相关。 相反,低 Ada 相似性分数则意味着预测与实际基本事实之间存在不匹配或分歧,这可能表示模型性能存在不准确或缺陷。
  • 缩放:
    • 1 =“非等效”表明预测与实际基本事实之间存在不匹配或分歧,可能表示模型性能存在不准确或缺陷。
    • 5 =“完全等效”表明模型预测在上下文方面与基本事实相似,指示结果准确且相关。

后续步骤