Поделиться через


Курировать эффективное пространство Genie

Цель лечения пространства Genie — создать среду, в которой бизнес-пользователи могут задавать вопросы о естественном языке и получать точные, согласованные ответы на основе своих данных. Genie spaces использует расширенные модели, которые создают сложные запросы и понимают общие знания о мире.

Большинство бизнес-вопросов являются предметными, поэтому роль куратора пространства заключается в том, чтобы преодолеть разрыв между общими мировыми знаниями и специализированным языком, используемым в определенном домене или определенной компанией. Кураторы используют метаданные и инструкции, чтобы точно интерпретировать и отвечать на вопросы бизнес-пользователей. В этой статье описаны рекомендации и принципы разработки успешного пространства.

Рекомендации по определению нового пространства

В следующих разделах описаны рекомендации по созданию эффективного пространства.

Начало с малого

Обработка пространства Genie — это итеративный процесс. При создании нового пространства начните как можно меньше, с минимальными инструкциями и ограниченным набором вопросов для ответа. Затем вы можете добавить итерацию на основе отзывов и мониторинга. Этот подход помогает упростить создание и обслуживание пространства и позволяет эффективно управлять им в ответ на реальные потребности пользователей.

Используйте следующие рекомендации, чтобы создать небольшое пространство Genie:

  • Оставайтесь ориентированными: включите только таблицы, необходимые для ответа на вопросы, которые требуется обрабатывать пространство. Нацелитесь на пять или меньше таблиц. Чем больше сосредоточены ваш выбор, тем лучше. Хранение пространства в узком расположении на небольшом количестве данных идеально подходит, поэтому ограничить количество столбцов в включенных таблицах.
  • Планирование итерации. Начните с минимальной настройки пространства, фокусируясь на основных таблицах и основных инструкциях. Добавьте более подробные рекомендации и примеры по мере уточнения пространства с течением времени, а не цели на совершенство изначально.
  • Создание хорошо аннотированных таблиц: Genie использует имена столбцов и описания каталога Unity для создания ответов. Очистка имен и описаний столбцов помогает создавать высококачественные ответы. Описания столбцов должны предлагать точные контекстные сведения. Избегайте неоднозначных или ненужных подробностей. Проверьте все описания, созданные ИИ, для точности и ясности, и используйте их только в том случае, если они соответствуют тому, что вы будете предоставлять вручную.

У эксперта домена определяется пространство

Эффективный создатель пространства должен понять данные и аналитические сведения, которые можно извлечь из него. Аналитики данных, которые обладают опытом в SQL, обычно обладают знаниями и навыками для курирования пространства.

Определение цели пространства

Определение конкретной аудитории и цели вашего пространства помогает решить, какие данные, инструкции и тестовые вопросы следует использовать. Пространство должно отвечать на вопросы для конкретной темы и аудитории, а не общие вопросы в различных доменах.

Тестирование и настройка

Вы должны быть первым пользователем вашего пространства. После создания нового пространства начните задавать вопросы. Внимательно изучите SQL, созданный в ответ на ваши вопросы. Если Genie неправильно интерпретирует данные, вопросы или бизнес-jargon, можно вмешаться, изменив созданный SQL или предоставив другие конкретные инструкции. Продолжайте тестирование и редактирование, пока не получите надежные ответы.

После проверки вопроса вы можете добавить его в качестве эталонного вопроса, который можно использовать для систематического тестирования и оценки места для общей точности. Вы можете использовать варианты и различные выражения вопросов для тестирования ответов Genie. См. статью "Использование тестов в пространстве Genie".

Сведения об устранении ошибок см. в статье "Устранение неполадок ".

Проведение тестирования пользователей

После проверки качества ответа с помощью тестирования набирайте бизнес-пользователя, чтобы попробовать пространство Genie. Используйте следующие рекомендации для обеспечения плавного взаимодействия пользователей и сбора отзывов о текущем улучшении:

  • Задайте ожидания, что их работа заключается в том, чтобы помочь уточнить комнату.
  • Попросите их сосредоточиться на тестировании на конкретный раздел и вопросы, которые пространство предназначено для ответа.
  • Если они получают неправильный ответ, рекомендуем пользователям добавлять дополнительные инструкции и уточнения в чате, чтобы уточнить ответ. Если указан правильный ответ, он должен изменить окончательный запрос, чтобы свести к минимуму аналогичные ошибки в будущих взаимодействиях.
  • Сообщите пользователям, чтобы ответы upvote или downvote использовали встроенный механизм обратной связи.
  • Пригласите пользователей поделиться дополнительными отзывами и неразрешенными вопросами непосредственно с авторами пространства. Авторы и редакторы могут использовать отзывы для уточнения инструкций, примеров и доверенных ресурсов.

Рекомендуется предоставлять учебные материалы или письменный документ с рекомендациями по тестированию помещения и предоставления отзывов. Как бизнес-пользователи тестируют пространство, вы увидите вопросы, которые они задавали на вкладке "Журнал ". Продолжайте добавлять инструкции, чтобы помочь Genie правильно интерпретировать вопросы и данные, чтобы предоставить точные ответы. Дополнительные сведения о мониторинге пространств Genie см . в журнале и отзыве .

Примечание.

Бизнес-пользователи должны быть членами исходной рабочей области для доступа к вашему пространству. Ознакомьтесь с необходимыми разрешениями , чтобы узнать, как предоставить соответствующие разрешения для взаимодействия с пространством.

Устранение неполадок

В следующих разделах описано, как устранить распространенные проблемы.

Неправильно понятый бизнес жаргон

Большинство компаний или доменов имеют конкретную сокращенную информацию о событиях, связанных с бизнесом. Например, при обращении к году это всегда может означать финансовый год, и этот финансовый год может начинаться в феврале или марте вместо января. Чтобы genie ответил на эти вопросы естественно и точно, включите инструкции, которые явно сопоставляют бизнес-жаргон с словами и понятиями Genie могут понять. См . инструкции.

Неправильное использование таблицы или столбца

Если Genie пытается извлечь данные из неправильной таблицы или выполнить анализ по неправильным столбцам, можно настроить данные одним из следующих способов:

  • Укажите четкое и точное описание. Проверьте таблицы и связанные метаданные, чтобы убедиться, что терминология, используемая там, соответствует терминологии пользователей в отправленных вопросов. Если это не так, укажите описание или добавьте инструкцию, которая сопоставляет терминологию, используемую в таблице, с терминологией, используемой в этом вопросе.
  • Добавление примеров запросов: укажите примеры запросов SQL, которые Genie может использовать для изучения того, как отвечать на определенные вопросы. См . инструкции.
  • Удаление таблиц или столбцов из пространства. Некоторые таблицы могут включать перекрывающиеся столбцы или понятия, которые затрудняют использование данных Genie в ответе. По возможности удалите ненужные или перекрывающиеся таблицы или столбцы. Может потребоваться создать представление, включающее только необходимые столбцы.

Ошибки фильтрации

Созданные запросы часто включают WHERE предложение для фильтрации результатов в соответствии с определенным значением. Так как Genie не имеет видимости фактических данных, оно может задать WHERE предложение для фильтрации неправильного значения. Например, он может попытаться сопоставить имя "Калифорния", когда в таблице используются сокращения, такие как "ЦС".

Для таких ситуаций попробуйте одну из следующих стратегий:

  • Если набор значений столбца достаточно мал, перечислите допустимые строки для каждого описания столбца. Поместите кавычки вокруг строковых значений, особенно если они имеют пробелы или числа. Иногда для распространенных перечислений достаточно сказать: "Используйте код ISO страны с тремя буквами" вместо перечисления каждого значения состояния.

Неправильные соединения

Если ссылки на внешние ключи не определены в каталоге Unity, ваше пространство может не знать, как должны объединяться разные таблицы.

Попробуйте реализовать одно или несколько следующих решений:

  • При возможности определите ссылки на внешние ключи в каталоге Unity. См. пункта CONSTRAINT.
  • Укажите примеры запросов, в которых вы объединяете таблицы стандартными способами.
  • Если внешние связи ключей таблиц не указаны в каталоге Unity, задокументируйте их в инструкциях.

Если ни одна из этих проблем не устранена, перед присоединением таблицы к представлению и используйте ее в качестве входных данных для пространства. Эта стратегия полезна для более сложных сценариев соединения, таких как самосоединяемые.

Проблемы с вычислением метрик

Способ вычисления и свертки метрик может быть произвольно сложным и охватывать множество бизнес-деталей, которые не понимают ваше пространство. Это может привести к неправильным отчетам.

Попробуйте реализовать одно или несколько следующих решений:

  • Если метрики агрегируются из базовых таблиц, укажите примеры запросов SQL, которые вычисляют каждое значение свертки.
  • Если метрики были предварительно вычисляются и сидят в агрегированных таблицах, объясните это в комментариях к таблице. Укажите допустимые агрегаты для каждой метрики, если метрики в этой таблице можно дополнительно свернуть.
  • Если sql, который вы пытаетесь создать, очень сложно, попробуйте создать представления, которые уже агрегировали метрики для вашего пространства.

Неправильные вычисления на основе времени

Genie может не всегда иметь возможность выводить часовой пояс, представленный в данных или часовой пояс, в котором необходимо выполнить анализ, если вы явно не предоставите дополнительные рекомендации.

Включите более явные инструкции, подробные сведения о исходном исходном часовом поясе, функции преобразования и целевом часовом поясе. В следующих примерах показано, как изменить общие инструкции для более надежных преобразований часовых поясов:

  • Всегда преобразовывайте время в определенный часовой пояс. В этом примере предположим, что исходная метка времени является UTC, и если вы хотите получить результаты в часовом поясе America/Los_Angeles. Добавьте следующие инструкции, заменив <timezone-column> соответствующим именем столбца:
    • Часовые пояса в таблицах находятся в UTC.
    • Преобразуйте все часовые пояса с помощью следующей функции: convert_timezone('UTC', 'America/Los_Angeles', <timezone-column>).
  • Преобразование форматов даты и времени, отличных от UTC, в формат UTC: если часовой пояс по умолчанию UTC, но пользователям в Лос-Анджелесе необходимо обратиться к сегодня для определенного набора записей, добавьте следующие общие инструкции пространства:
    • Чтобы ссылаться на сегодня, используйте `date(convert_timezone('UTC', 'America/Los_Angeles', current_timestamp()))`

Дополнительные сведения и синтаксис функции convert_timezone см. в.

Игнорировать инструкции

Даже если вы объяснили таблицы и столбцы в комментариях и предоставили общие инструкции, ваше пространство может по-прежнему не использовать их правильно.

Попробуйте одну или несколько следующих стратегий:

  • Укажите примеры запросов, которые правильно используют таблицы. Примеры запросов особенно эффективны для обучения вашему пространству использования данных.
  • Создайте представления из таблиц, которые предоставляют более упрощенное представление данных.
  • Просмотрите инструкции и попробуйте сосредоточить пространство, удалив неуместные таблицы или инструкции.
  • Попробуйте начать новый чат. Предыдущие взаимодействия могут влиять на ответы Genie в любом конкретном чате, но запуск нового чата дает пустую отправную точку для тестирования новых инструкций.

Проблемы с производительностью

Когда Genie нужно создать исключительно длинные запросы или текстовые ответы, это может занять много времени для ответа или даже времени ожидания во время этапа мышления.

Попробуйте выполнить одно или несколько следующих действий, чтобы повысить производительность:

  • Используйте доверенные ресурсы или представления для инкапсулировать сложные запросы. См. раздел "Использование доверенных ресурсов в пространствах AI/BI Genie".
  • По возможности уменьшите длину примеров запросов SQL.
  • Запустите новый чат, если Genie начинает создавать медленные или неудачные ответы.

Ненадежные ответы на критически важные вопросы

Используйте доверенные ресурсы для предоставления проверенных ответов на определенные вопросы, которые вы ожидаете, что пользователи будут задавать. См. раздел "Использование доверенных ресурсов в пространствах AI/BI Genie".

Предупреждение об ограничении маркера

Маркеры — это основные единицы текста, который Genie использует для обработки и понимания языка. Текст, включенный в виде инструкций или метаданных в пространстве Genie, преобразуется в маркеры. Если количество маркеров в вашем пространстве приближается к ограничению, продукт уведомляет вас с предупреждениями. Genie применяет смарт-фильтрацию контекста для выбора маркеров, представляющих метаданные и некоторые типы инструкций, включенных в пространство Genie. Даже если превышено ограничение, пространство должно продолжать создавать ответы на вопросы.

Если пространство Genie приближается к ограничению маркера, Genie может определить приоритеты, включая только части схемы таблицы и инструкции, наиболее важные для вопроса. Это может снизить качество отклика, если важный контекст отфильтровывается. Рассмотрим следующие методики, чтобы сократить число маркеров:

  • Удаление ненужных столбцов: ненужные столбцы в таблицах могут значительно способствовать использованию маркеров. Создайте представления, чтобы исключить избыточные или неисключаемые поля из необработанных таблиц.
  • Упрощение описания столбцов. Хотя описания столбцов важны, избегайте дублирования данных, которые уже передаются именами столбцов. Например, если столбец называется account_name, описание, например "имя учетной записи", может быть избыточным и может быть опущено.
  • Упрощение инструкций. Убедитесь, что ваши инструкции понятны и кратки. Избегайте ненужных слов.
  • Примеры инструкций SQL. Включите разнообразный диапазон примеров инструкций SQL для покрытия различных типов вопросов, но удаление перекрывающихся или избыточных примеров.

Учетная запись не включена для перекрестной обработки

Genie — это назначенная служба, управляемая Azure Databricks. Назначенные службы используют Databricks Geos для управления расположением данных. Для некоторых регионов данные не могут обрабатываться в том же географическом регионе, что и рабочая область. Если ваша рабочая область находится в одном из этих регионов, перекрестная обработка должна быть включена администратором учетной записи.