ИИ и машинное обучение в Databricks
В этой статье описываются средства, которые предоставляет Мозаизайчная ИИ (ранее Databricks Машинное обучение) для создания систем искусственного интеллекта и машинного обучения. На схеме показано, как различные продукты на платформе Databricks помогают реализовать конечные рабочие процессы для создания и развертывания систем искусственного интеллекта и машинного обучения.
Создание искусственного интеллекта в Databricks
Мозаика ИИ объединяет жизненный цикл ИИ из сбора и подготовки данных, для разработки моделей и LLMOps для обслуживания и мониторинга. Следующие функции оптимизированы специально для упрощения разработки создаваемых приложений ИИ:
- Unity Catalog для управления, обнаружения, версионирования и контроля доступа к данным, признакам, моделям и функциям.
- MLflow для отслеживания разработки моделей.
- Шлюз Mosaic AI для управления и мониторинга доступом к поддерживаемым моделям генеративного ИИ и связанным с ними конечным точкам обслуживания моделей.
-
Мозаичная модель ИИ, обслуживающая развертывание LLM. Вы можете настроить конечную точку обслуживания модели специально для доступа к созданным моделям ИИ:
- Современные открытые llms с помощью API модели Foundation.
- Сторонние модели, размещенные за пределами Databricks. См. внешние модели в мозаичной модели ИИ.
- Mosaic AI Vector Search предоставляет запрашиваемую базу данных векторов, в которой хранятся векторы внедрения и может быть настроена для автоматической синхронизации с вашей базой знаний.
- Мониторинг Lakehouse для мониторинга данных и отслеживания качества прогнозов модели и её смещения с помощью автоматического журналирования полезных нагрузок с таблицами вывода.
- Платформа искусственного интеллекта для тестирования созданных моделей ИИ из рабочей области Databricks. Вы можете запрашивать, сравнивать и настраивать параметры, такие как системный запрос и параметры вывода.
- Тонкая настройка базовой модели (в настоящее время входит в состав обучения моделей Mosaic AI) для адаптации модели с помощью собственных данных и оптимизации производительности для конкретного приложения.
- Платформа агента ИИ мозаики для создания и развертывания рабочих агентов, таких как приложения для получения дополненного поколения (RAG).
- Оценка агента ИИ мозаики для оценки качества, стоимости и задержки создаваемых приложений ИИ, включая приложения и цепочки RAG.
Что такое генеративный ИИ?
Генерируемый ИИ — это тип искусственного интеллекта, ориентированный на способность компьютеров использовать модели для создания содержимого, такого как изображения, текст, код и искусственные данные.
Созданные приложения ИИ создаются на основе моделей создания ИИ: больших языковых моделей (LLMs) и базовых моделей.
- LLM — это модели глубокого обучения, которые используют и обучают массовые наборы данных, чтобы преуспеть в задачах обработки языка. Они создают новые сочетания текста, которые имитируют естественный язык на основе их обучающих данных.
- Модели создания ИИ или базовые модели — это модели больших машинного обучения, предварительно обученные с целью их точной настройки для более конкретных задач распознавания речи и создания. Эти модели используются для распознавания шаблонов в входных данных.
После завершения процессов обучения эти модели вместе создают статистически вероятные выходные данные при появлении запроса и их можно использовать для выполнения различных задач, в том числе:
- Создание изображений на основе существующих или использование стиля одного образа для изменения или создания нового образа.
- Задачи речи, такие как транскрибирование, перевод, создание вопросов и ответов, а также интерпретация намерения или смысла текста.
Внимание
Хотя многие модули LLM или другие модели создания ИИ имеют гарантии, они по-прежнему могут создавать вредные или неточные сведения.
У генеривных ИИ есть следующие шаблоны проектирования:
- Инженерия запросов: создание специализированных запросов для руководства по поведению LLM
- Получение дополненного поколения (RAG): объединение LLM с внешним извлечением знаний
- Предварительная настройка: адаптация предварительно обученного LLM к определенным наборам данных доменов
- Предварительная подготовка: обучение LLM с нуля
Машинное обучение в Databricks
С помощью Мозаичного ИИ одна платформа служит каждому шагу разработки и развертывания машинного обучения, от необработанных данных до таблиц вывода, которые сохраняют каждый запрос и ответ на обслуживаемую модель. Специалисты по обработке и анализу данных, инженеры машинного обучения и DevOps могут выполнять свои задачи с помощью одного набора инструментов и одного источника истины для данных.
Мозаика ИИ объединяет уровень данных и платформу машинного обучения. Все ресурсы данных и артефакты, такие как модели и функции, доступны для обнаружения и управляются в одном каталоге. Использование одной платформы для данных и моделей позволяет отслеживать происхождение необработанных данных в рабочую модель. Встроенные данные и мониторинг моделей сохраняют метрики качества в таблицах, которые также хранятся на платформе, что упрощает определение первопричин проблем производительности модели. Дополнительные сведения о том, как Databricks поддерживает полный жизненный цикл машинного обучения и MLOps, см . в рабочих процессах MLOps в Azure Databricks и MLOps Stacks: процесс разработки моделей в виде кода.
Ниже приведены некоторые ключевые компоненты платформы аналитики данных:
Задачи | Компонент |
---|---|
Управление данными, функциями, моделями и функциями и управление ими. Кроме того, обнаружение, управление версиями и происхождение. | каталога Unity |
Отслеживание изменений в качестве данных, качества данных и прогнозирования модели | Lakehouse Monitoring, таблицы интерпретации для пользовательских моделей |
Разработка функций и управление ими | Проектирование функций и обслуживание. |
Обучение моделей | Записные книжки AutoML, Databricks |
Отслеживание разработки модели | Отслеживание MLflow |
Обслуживание пользовательских моделей | Мозаичная модель ИИ, обслуживающая. |
Создание автоматизированных рабочих процессов и готовых к работе конвейеров ETL | Задания Databricks |
Интеграция с Git | Папки Databricks Git |
Глубокое обучение в Databricks
Настройка инфраструктуры для приложений глубокого обучения может быть сложной. Databricks Runtime для Машинное обучение заботится об этом с кластерами, которые имеют встроенные совместимые версии наиболее распространенных библиотек глубокого обучения, таких как TensorFlow, PyTorch и Keras.
Кластеры машинного обучения Databricks Runtime также включают предварительно настроенную поддержку GPU с драйверами и вспомогательными библиотеками. Она также поддерживает такие библиотеки, как Ray для параллелизации обработки вычислений для масштабирования рабочих процессов машинного обучения и приложений машинного обучения.
Кластеры машинного обучения Databricks Runtime также включают предварительно настроенную поддержку GPU с драйверами и вспомогательными библиотеками. Служба модели ИИ мозаики позволяет создавать масштабируемые конечные точки GPU для моделей глубокого обучения без дополнительной настройки.
Для приложений машинного обучения Databricks рекомендует использовать кластер, на котором выполняется Databricks Runtime для машинного обучения. См. статью "Создание кластера с помощью машинного обучения среды выполнения Databricks".
Сведения о начале глубокого обучения в Databricks см. в статье:
- Рекомендации по глубокому обучению в Azure Databricks
- Глубокое обучение в Databricks
- Справочные решения для глубокого обучения
Следующие шаги
Чтобы приступить к работе, см. статью :
Рекомендуемый рабочий процесс MLOps в Databricks Mosaic AI см. в статье:
Дополнительные сведения о ключевых функциях Databricks Mosaic AI см. в следующем разделе: