Поделиться через


Использование тестов в пространстве Genie

В этой статье объясняется, как использовать тесты для оценки точности пространства Genie.

Обзор

Тесты позволяют создавать набор тестовых вопросов, которые можно выполнить для оценки общей точности ответа Genie. Хорошо разработанный набор тестов, охватывающий наиболее часто задаваемые пользователем вопросы, помогает оценить точность пространства Genie при его уточнении.

примеры тестов с точностью, указанной для девяти вопросов.

Добавление вопросов теста

Вопросы теста должны отражать различные способы выражения распространенных вопросов, которые задают пользователи. Их можно использовать для проверки ответа Genie на варианты выражения вопросов или различные форматы вопросов.

При создании вопроса теста можно дополнительно включить SQL-запрос, результирующий набор которого является правильным ответом. Во время выполнения теста точность оценивается путем сравнения результирующий набор из SQL-запроса с тем, который создается Genie.

Чтобы добавить вопрос о тесте, выполните следующие действия.

  1. Значок Щелкните левую боковую панель в пространстве Genie.

  2. Перейдите на вкладку "Вопросы". Затем нажмите кнопку "Добавить тест".

  3. В поле "Вопрос" введите тестовый вопрос для тестирования.

  4. (Необязательно) Введите инструкцию SQL, которая точно отвечает на введенный вопрос.

    Примечание.

    Этот шаг рекомендуется. Только вопросы, содержащие этот пример инструкции SQL, можно автоматически оценить для точности. Любые вопросы, не содержащие ответ SQL, требуют оценки вручную.

  5. (Необязательно) Нажмите Запустить, чтобы запустить запрос и просмотреть результаты.

  6. После завершения редактирования нажмите кнопку "Добавить тест".

  7. Чтобы обновить вопрос после сохранения, щелкните значок карандаша Значок , чтобы открыть диалоговое окно "Обновить вопрос ".

Использование эталонных показателей для тестирования альтернативных фраз вопросов

При оценке точности пространства Genie важно структурировать тесты для отражения реалистичных сценариев. Пользователи могут задавать один и тот же вопрос разными способами. Databricks рекомендует добавлять несколько выражений одного и того же вопроса и использовать один и тот же пример SQL в тестах теста теста для полной оценки точности. Большинство пространств Genie должны включать 2 - 4 фразы одного и того же вопроса.

Выполнение вопросов о тесте

Пользователи с разрешениями CAN EDIT в пространстве Genie могут создавать тестовые запуски в любое время, что автоматически вычисляет все вопросы теста. Чтобы оценить каждый вопрос теста, сначала мы отправим вопрос в Genie, а затем сравните результаты Genie с эталонным показателем. К каждому тесту применяется одна из следующих меток:

  • Хорошо. Ответы помечаются с этой меткой, когда результат запроса Genie соответствует результатам предоставленного ответа SQL. Если ответ помечается "Хорошо", это означает, что значения строк соответствуют точно, независимо от порядка сортировки или имен столбцов.
  • Проверка потребностей. Ответы помечаются этой меткой, если Genie не может оценить правильность или когда результаты запроса, созданные Genie, не соответствуют результатам предоставленного ответа SQL. Если в созданном ответе или предоставленном ответе SQL возникают непредвиденные изменения в измерениях таблиц, вопрос может быть помечен для проверки. Все вопросы теста, не содержащие ответ SQL, должны быть проверены вручную.
  • Плохой: ответы никогда не помечены как "Плохие". Если результаты запроса, созданные Genie, не соответствуют результирующему набору из предоставленного ответа SQL, вопрос помечается как проверка потребностей. При просмотре этих тестов вы можете пометить результат как плохой , если вы не думаете, что результаты созданного запроса Genie отвечают на этот вопрос.

Чтобы выполнить все вопросы о тесте, выполните следующие действия:

  1. Щелкните "Значок Тесты" в боковой панели Genie в левой части экрана.
  2. Нажмите кнопку "Запустить тестовые тесты", чтобы запустить тестовый запуск.

Примечание.

При закрытии этой страницы тест автоматически приостанавливается. При повторном открытии страницы можно возобновить тест.

Доступ к тестам оценки

Вы можете получить доступ ко всем оценкам теста, чтобы отслеживать точность в пространстве Genie с течением времени. Значок Щелкнув левую боковую панель в пространстве Genie, на вкладке "Оценки" появится метка времени выполнения оценки. Если запуски оценки не найдены, см. статью "Добавить вопросы о тесте" или "Выполнить тестовый тест".

Экран оценки, как описано в следующем тексте.

На вкладке оценки содержится общий обзор оценок и их эффективности в следующих категориях:

Имя оценки: метка времени, указывающая, когда произошла оценка. Щелкните метку времени, чтобы просмотреть сведения об этой оценке. Состояние выполнения: указывает, завершена ли оценка, приостановлена или неудачна. Если выполнение оценки содержит вопросы о тесте, которые не имеют предопределенных ответов SQL, он помечается для проверки в этом столбце. Точность: числовая оценка точности по всем вопросам теста. Для выполнения оценки, требующих ручной проверки, мера точности отображается только после проверки этих вопросов. Создано: указывает имя пользователя, выполнившего оценку.

Просмотр отдельных вычислений

Вы можете просмотреть отдельные оценки, чтобы получить подробный обзор каждого ответа. Вы можете изменить оценку для любого вопроса и обновить все элементы, которые нуждаются в ручной проверке.

Чтобы просмотреть отдельные оценки, выполните указанные действия.

  1. Щелкните "Значок Тесты" в боковой панели Genie в левой части экрана.

  2. Щелкните метку времени для любой оценки в столбце имени оценки, чтобы открыть подробное представление тестового запуска.

    Экран, показывающий результаты одного выполнения оценки. Все вопросы перечислены слева. Если применимо, отдельные вопросы отображаются справа с выходными данными модели и выходными данными истины.

  3. Щелкните вопрос в левой части экрана, чтобы просмотреть связанные сведения. Используйте экран сведений об оценке, выполнив следующие действия.

  4. Просмотрите и сравните выходной ответ модели с ответом "Истина земли".

    Примечание.

    Результаты этих ответов отображаются в сведениях об оценке на одну неделю. Через одну неделю результаты больше не видны. Созданная инструкция SQL и пример инструкции SQL остаются.

  5. Значок Щелкните метку, чтобы изменить оценку.

    Пометьте каждый результат как хороший или плохой , чтобы получить точный показатель для этой оценки.