Мониторинг описаний и вариантов использования метрик оценки
В этой статье вы узнаете о метриках, используемых при мониторинге и оценке моделей генерированных ИИ в Машинное обучение Azure, а также о рекомендациях по использованию мониторинга моделей создания ИИ.
Внимание
Мониторинг в настоящее время находится в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения на уровне обслуживания и не рекомендуется для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
Мониторинг моделей отслеживает производительность модели в рабочей среде и стремится понять его как с точки зрения обработки и анализа данных, так и с операционной точки зрения. Для реализации мониторинга Машинное обучение Azure использует сигналы мониторинга, полученные с помощью анализа данных по потоковой передаче данных. Каждый сигнал мониторинга имеет одну или несколько метрик. Пороговые значения для этих метрик можно задать для получения оповещений с помощью Машинное обучение Azure или Azure Monitor о модели или аномалиях данных.
Соответствие эталонным данным
Приземление оценивает, насколько хорошо сформированные ответы модели соответствуют данным из источника входных данных. Ответы проверяются как утверждения в отношении контекста в определяемом пользователем источнике правды: даже если ответы являются истинными (фактически правильными), если они не проверяются в исходном тексте, то он оценивается как незапланированный. Ответы, проверенные как утверждения в отношении "контекста" в исходном источнике истины (например, источник входных данных или база данных).
- Используйте его, когда: вы обеспокоены тем, что ваше приложение создает информацию, которая не включается в состав обученных знаний ИИ (также известных как непроверяемые сведения).|
- Как прочитать его: если ответы модели очень обоснованны, это означает, что факты, описанные в ответах системы ИИ, проверяются входными источниками или внутренней базой данных. И наоборот, оценки низкой основы показывают, что факты, упомянутые в ответах системы искусственного интеллекта, могут быть недостаточно поддерживаются или проверяются источником входных данных или внутренней базой данных. В таких случаях созданные модели ответы могут быть основаны исключительно на предварительно обученных знаниях, которые могут не соответствовать конкретному контексту или домену заданного входного данных.
- Scale (Масштаб):
- 1 = "незапланированные": предполагает, что ответы не проверяются входным источником или внутренней базой данных.
- 5 = "идеальная основа" предполагает, что факты, описанные в ответах системы ИИ, проверяются входным источником или внутренней базой данных.
С сортировкой по релевантности
Метрика релевантности измеряет степень, в которой созданные моделью ответы относятся к соответствующим и непосредственно связанным с заданными вопросами. Когда пользователи взаимодействуют с формируемой моделью искусственного интеллекта, они задают вопросы или запросы ввода, ожидая значимых и контекстно подходящих ответов.
- Используйте его, когда: вы хотите достичь высокой релевантности для ответов вашего приложения, чтобы улучшить взаимодействие с пользователем и служебную программу создаваемых систем искусственного интеллекта.
- Как прочитать его: Ответы оцениваются в их способности захватывать ключевые моменты вопроса из контекста в источнике истины земли. Если ответы модели очень важны, это означает, что система ИИ понимает входные данные и может создавать последовательные и контекстно соответствующие выходные данные. И наоборот, оценки низкой релевантности предполагают, что созданные ответы могут быть вне темы, отсутствие контекста или не отвечать на предполагаемые запросы пользователя надлежащим образом.
- Scale (Масштаб):
- 1 = "неуместно" предполагает, что созданные ответы могут быть вне темы, отсутствие контекста или не отвечать на предполагаемые запросы пользователя должным образом.
- 5 = "идеальная релевантность" предлагает контекстно соответствующие выходные данные.
Согласованность
Согласованность оценивает, насколько хорошо языковая модель может производить выходные данные, которые плавно читаются, считывает естественно и напоминает человеческий язык. Насколько хорошо бот сообщает свои сообщения кратко и четко, используя простой и подходящий язык и избегая ненужных или запутанных сведений? Насколько легко пользователю понять и следовать ответам бота, и насколько хорошо они соответствуют потребностям и ожиданиям пользователя?
- Используйте его, когда: вы хотите проверить удобочитаемость и удобство пользователя созданных ответов модели в реальных приложениях.
- Как прочитать его: Если ответы модели очень последовательны, это означает, что система ИИ создает простой, хорошо структурированный текст с плавными переходами. Согласованный контекст во всем тексте улучшает удобочитаемость и понимание. Низкая согласованность означает, что качество предложений в прогнозируемом ответе модели плохо, и они не соответствуют естественно. Созданный текст может не содержать логический поток, и предложения могут отображаться несоединяемыми, что делает его сложным для читателей, чтобы понять общий контекст или предполагаемое сообщение. Ответы оцениваются в их ясности, краткости, соответствующем языке и способности соответствовать определенным потребностям и ожиданиям пользователей
- Scale (Масштаб):
- 1 = "несогласованный": предполагает, что качество предложений в прогнозируемом ответе модели плохое, и они не подходят вместе естественно. Созданный текст может не содержать логический поток, и предложения могут отображаться несоединяемыми, что делает его сложным для читателей, чтобы понять общий контекст или предполагаемое сообщение.
- 5 = "идеально согласованный": предполагает, что система ИИ создает простой, хорошо структурированный текст с плавными переходами и согласованным контекстом в тексте, который повышает удобочитаемость и понимание.
Беглость
Fluency оценивает знание языка прогнозируемого ответа искусственного интеллекта. Он оценивает, насколько хорошо сформированный текст соответствует грамматические правила, синтактические структуры и соответствующее использование словаря, что приводит к лингвистически правильным и естественным звуковым ответам. Ответы измеряются качеством отдельных предложений, а также правильно ли они написаны и грамматически правильно. Эта метрика ценна при оценке способности языковой модели создавать текст, который соответствует правильной грамматике, синтаксису и использованию словаря.
- Используйте его, когда: вы хотите оценить грамматические и лингвистические точности прогнозируемых ответов искусственного интеллекта.
- Как прочитать его: Если ответы модели очень последовательны, это означает, что система ИИ следует грамматическим правилам и использует соответствующий словарь. Согласованный контекст во всем тексте улучшает удобочитаемость и понимание. И наоборот, низкие оценки беглости указывают на борьбу с грамматические ошибки и неловкое выражение, что делает текст менее подходящим для практических приложений.
- Scale (Масштаб):
- 1 = "остановка" предполагает борьбу с грамматические ошибки и неловкое выражение, что делает текст менее подходящим для практических приложений.
- 5 = "идеальная беглость" предполагает, что система ИИ следует грамматическим правилам и использует соответствующий словарь. Согласованный контекст во всем тексте улучшает удобочитаемость и понимание.
Similarity
Сходство квалификирует сходство между наземным предложением истины (или документом) и предложением прогнозирования, созданным моделью ИИ. Он вычисляется с помощью первых вычислений внедрения на уровне предложения как для истины, так и для прогнозирования модели. Эти внедрения представляют высокомерные векторные представления предложений, захватывая их семантический смысл и контекст.
- Используйте его, когда: вы хотите объективно оценить производительность модели ИИ (для задач создания текста, где у вас есть доступ к нужным ответам на землю). Сходство Ada позволяет сравнить созданный текст с нужным содержимым.
- Как прочитать его: Ответы забили для эквивалентных ответов на землю, захватив ту же информацию и значение, что и ответ на первый вопрос. Высокая оценка сходства Ada предполагает, что прогноз модели контекстно похож на землю правду, указывая точные и соответствующие результаты. И наоборот, низкая оценка сходства Ada подразумевает несоответствие или расхождение между прогнозом и фактической правдой земли, потенциально сигнализирует о неточностях или недостатках в производительности модели.
- Scale (Масштаб):
- 1 = "nonequivalence" предполагает несоответствие или расхождение между прогнозом и фактической землей правдой, потенциально сигналируя о неточностях или недостатках в производительности модели.
- 5 = "идеальная эквивалентность" предполагает, что прогноз модели контекстно похож на точную и соответствующую результаты.