Поделиться через


Применение ИИ к данным с помощью Функций ИИ Azure Databricks

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

В этой статье описаны функции ИИ Azure Databricks и поддерживаемые функции.

Что такое функции ИИ?

Функции ИИ — это встроенные функции, которые можно использовать для применения ИИ, таких как перевод текста или анализ тональности, на данные, хранящиеся в Databricks. Их можно запускать из любого места в Databricks, включая Databricks SQL, ноутбуки, Delta Live Tables и рабочие процессы.

Функции ИИ просты в использовании, быстры и масштабируемы. Аналитики могут использовать их для применения интеллектуального анализа данных к собственным данным, в то время как ученые данных и инженеры машинного обучения могут использовать их для создания пакетных конвейеров уровня производства.

Функции ИИ предоставляют функции общего назначения и функции, специфичные для задач.

  • ai_query — это функция общего назначения, которая позволяет применять к данным любой тип модели ИИ. См. функцию общего назначения : ai_query.
  • Функции, относящиеся к задачам, предоставляют высокоуровневые возможности ИИ для задач, таких как суммирование текста и перевода. Эти специализированные на задачах функции поддерживаются передовыми генеративными моделями искусственного интеллекта, которые размещены и управляются Databricks. См. для функций и моделей, предназначенных для конкретных задач.

Функция общего назначения: ai_query

Функция ai_query() позволяет применять любую модель ИИ к данным как для задач создания ИИ, так и для классических задач машинного обучения, включая извлечение информации, сводку содержимого, выявление мошенничества и прогнозирование доходов.

В следующей таблице перечислены поддерживаемые типы моделей, связанные модели и их требования.

Тип Поддерживаемые модели Требования
Модели фундамента, размещенные в Databricks
  • databricks-meta-llama-3-3-70b-instruct
  • databricks-meta-llama-3-1-8b-instruct
  • databricks-gte-large-en

Эти модели доступны с помощью API-интерфейсов Foundation Model.
Не требуется настройка конечных точек или конфигурация.
Точно настроенные базовые модели Точно настроенные базовые модели, развернутые на платформе Mosaic AI Model Serving Требуется создать конечную точку с обеспеченной пропускной способностью в службе предоставления моделей. См. пакетный вывод с помощью пользовательских моделей или точно настроенных основополагающих моделей.
Базовые модели, размещенные за пределами Databricks Модели, доступные с помощью внешних моделей. См. доступ к базовым моделям, размещенным за пределами Databricks. Требуется создать внешнюю конечную точку для обслуживания модели.
Пользовательские традиционные модели машинного и глубокого обучения Любая традиционная модель ML или DL, например scikit-learn, xgboost или PyTorch Требуется создать сервисную конечную точку для пользовательской модели

Использование ai_query с базовыми моделями

В следующем примере показано, как использовать ai_query с помощью базовой модели, размещенной Databricks. Сведения о синтаксисе, и параметры см. в разделах функции , функцииai_query и функции.


SELECT text, ai_query(
    "databricks-meta-llama-3-3-70b-instruct",
    "Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;

Используйте ai_query с традиционными моделями машинного обучения

ai_query поддерживает традиционные модели машинного обучения, включая полностью настраиваемые. Эти модели должны быть развернуты на конечных точках обслуживания моделей. Сведения о синтаксисе, и параметры см. в разделах функции , функцииai_query и функции.

SELECT text, ai_query(
  endpoint => "spam-classification",
  request => named_struct(
    "timestamp", timestamp,
    "sender", from_number,
    "text", text),
  returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10

функции ИИ для конкретной задачи

Функции для конкретных задач ограничены для определенной задачи, поэтому вы можете автоматизировать обычные задачи, такие как простые сводки и быстрые переводы. Эти функции вызывают модель создания искусственного интеллекта, поддерживаемую Databricks, и они не требуют настройки.

Пример см. в статье Анализ отзывов клиентов с помощью функций ИИ.

В следующей таблице перечислены поддерживаемые функции и задачи, которые они выполняют.

Функция Описание
ai_analyze_sentiment Анализ тональности исходного текста с использованием передовой генеративной модели ИИ.
ai_classify Классифицируйте входной текст в соответствии с метками, предоставляемыми с помощью модели создания искусственного интеллекта.
ai_extract Извлеките сущности, указанные метками из текста, с помощью модели создания искусственного интеллекта.
ai_fix_grammar Исправьте грамматические ошибки в тексте с помощью модели создания искусственного интеллекта.
ai_gen Ответьте на запрос, предоставленный пользователем, с помощью передовой генеративной модели искусственного интеллекта.
ai_mask Замаскировать указанные сущности в тексте с использованием передовой генеративной модели ИИ.
ai_similarity Сравните две строки и вычислить семантический показатель сходства с помощью модели создания искусственного интеллекта.
ai_summarize Создайте сводку текста с помощью SQL и передовой генеративной модели искусственного интеллекта.
ai_translate Перевод текста на указанный целевой язык с помощью модели создания искусственного интеллекта.
ai_forecast Прогнозируемые данные до указанного временного горизонта. Эта табличная функция предназначена для экстраполации данных временных рядов в будущем.
vector_search Выполните поиск и запрос индекса векторного поиска Mosaic AI с помощью передовой генеративной модели ИИ.

Использование функций ИИ в существующих рабочих процессах Python

Функции искусственного интеллекта можно легко интегрировать в существующие рабочие процессы Python.

Следующий процесс записывает данные ai_query в выходную таблицу.

df_out = df.selectExpr(
  "ai_query('databricks-meta-llama-3-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')

Ниже приводится запись сводного текста в таблицу:

df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')

Использование функций ИИ в рабочих рабочих процессах

Для крупномасштабного пакетного вывода ai_query можно интегрировать с рабочими процессами, такими как рабочие процессы Databricks и технология Structured Streaming. Это позволяет осуществлять обработку промышленного уровня в масштабе. Дополнительные сведения см. в статье Выполнение пакетного вывода LLM с помощью функций ИИ.

Мониторинг хода выполнения функций ИИ

Чтобы понять, сколько выводов завершилось или завершилось сбоем и устранить неполадки с производительностью, можно отслеживать ход выполнения функций ИИ с помощью функции профиля запроса.

Выполните следующие действия из окна запроса редактора SQL в рабочей области:

  1. Выберите ссылку, Выполнение--- в нижней части окна необработанных результатов. Окно производительности отображается справа.
  2. Щелкните См. профиль запроса, чтобы увидеть детали производительности.
  3. Щелкните запрос искусственного интеллекта, чтобы просмотреть метрики для этого конкретного запроса, включая количество завершенных и неудачных выводов и общее время выполнения запроса.

Отслеживайте ход выполнения функции ИИ