ИИ и машинное обучение в Databricks
В этой статье описываются средства, которые предоставляет Мозаизайчная ИИ (ранее Databricks Машинное обучение) для создания систем искусственного интеллекта и машинного обучения. На схеме показано, как различные продукты на платформе Databricks помогают реализовать конечные рабочие процессы для создания и развертывания систем искусственного интеллекта и машинного обучения.
Создание искусственного интеллекта в Databricks
Мозаика ИИ объединяет жизненный цикл ИИ из сбора и подготовки данных, для разработки моделей и LLMOps для обслуживания и мониторинга. Следующие функции оптимизированы специально для упрощения разработки создаваемых приложений ИИ:
- Unity Catalog для управления, обнаружения, версионного контроля и контроля доступа для данных, признаков, моделей и функций.
- MLflow для отслеживания разработки моделей.
-
Мозаичная модель ИИ, обслуживающая развертывание LLM. Вы можете настроить конечную точку обслуживания модели специально для доступа к созданным моделям ИИ:
- Современные открытые llms с помощью API модели Foundation.
- Сторонние модели, размещенные за пределами Databricks. См. внешние модели в мозаичной модели ИИ.
- Mosaic AI Vector Search предоставляет запрашиваемую базу данных векторов, в которой хранятся векторные представления и которую можно настроить для автоматического sync в базу знаний.
- Мониторинг Lakehouse для наблюдения за данными и оценки качества прогнозирования модели и отклонений с помощью автоматического ведения журнала полезной нагрузки с tables.
- Платформа искусственного интеллекта для тестирования созданных моделей ИИ из рабочей области Databricks. Вы можете запрашивать, сравнивать и настраивать параметры, такие как системный запрос и вывод parameters.
- foundation Model Fine-tuning (в настоящее время входит в состав Обучения модели СИ Мозаики) для настройки базовой модели с помощью собственных данных для optimize его производительности для конкретного приложения.
- Платформа агента ИИ мозаики для создания и развертывания рабочих агентов, таких как приложения для получения дополненного поколения (RAG).
- Оценка агента ИИ мозаики для оценки качества, стоимости и задержки создаваемых приложений ИИ, включая приложения и цепочки RAG.
Что такое генеративный ИИ?
Генерируемый ИИ — это тип искусственного интеллекта, ориентированный на способность компьютеров использовать модели для создания содержимого, такого как изображения, текст, код и искусственные данные.
Созданные приложения ИИ создаются на основе моделей создания ИИ: больших языковых моделей (LLMs) и базовых моделей.
- LLM — это модели глубокого обучения, которые используют и обучают массовые наборы данных, чтобы преуспеть в задачах обработки языка. Они создают новые сочетания текста, которые имитируют естественный язык на основе их обучающих данных.
- Модели создания ИИ или базовые модели — это модели больших машинного обучения, предварительно обученные с целью их точной настройки для более конкретных задач распознавания речи и создания. Эти модели используются для распознавания шаблонов в входных данных.
После завершения процессов обучения эти модели вместе generate статистически вероятные выходные данные при появлении запроса и их можно использовать для выполнения различных задач, в том числе:
- Создание изображений на основе существующих или использование стиля одного образа для изменения или создания нового образа.
- Задачи речи, такие как транскрибирование, перевод, создание вопросов и ответов, а также интерпретация намерения или смысла текста.
Внимание
Хотя многие LLM или другие модели создания ИИ имеют гарантии, они по-прежнему могут generate вредной или неточной информации.
У генеривных ИИ есть следующие шаблоны проектирования:
- Инженерия запросов: создание специализированных запросов для руководства по поведению LLM
- Получение дополненного поколения (RAG): объединение LLM с внешним извлечением знаний
- Предварительная настройка: адаптация предварительно обученного LLM к определенным наборам данных доменов
- Предварительная подготовка: обучение LLM с нуля
Машинное обучение в Databricks
С помощью Мозаичного ИИ одна платформа служит каждому шагу разработки и развертывания машинного обучения, от необработанных данных до вывода tables, которые сохраняют каждый запрос и ответ на обслуживаемую модель. Специалисты по обработке и анализу данных, инженеры машинного обучения и DevOps могут выполнять свои задачи с помощью той же set инструментов и одного источника истины для данных.
Мозаика ИИ объединяет уровень данных и платформу машинного обучения. Все ресурсы данных и артефакты, такие как модели и функции, могут быть обнаружены и управляются в одном catalog. Использование одной платформы для данных и моделей позволяет отслеживать происхождение необработанных данных в рабочую модель. Встроенный мониторинг данных и моделей сохраняет метрики качества для tables, которые также хранятся на платформе, что упрощает определение первопричин проблем производительности модели. Дополнительные сведения о том, как Databricks поддерживает полный жизненный цикл машинного обучения и MLOps, см . в рабочих процессах MLOps в Azure Databricks и MLOps Stacks: процесс разработки моделей в виде кода.
Ниже приведены некоторые ключевые компоненты платформы аналитики данных:
Задачи | Компонент |
---|---|
Управление данными, функциями, моделями и функциями и управление ими. Кроме того, обнаружение, управление версиями и происхождение. | Единство Catalog |
Отслеживание изменений в качестве данных, качества данных и прогнозирования модели | Мониторинг Лейкхаус, Инференс tables |
Разработка функций и управление ими | Проектирование функций и обслуживание. |
Обучение моделей | Записные книжки AutoML, Databricks |
Отслеживание разработки модели | Отслеживание MLflow |
Обслуживание пользовательских моделей | Мозаичная модель ИИ, обслуживающая. |
Создание автоматизированных рабочих процессов и готовых к работе конвейеров ETL | Задания Databricks |
Интеграция с Git | Папки Databricks Git |
Глубокое обучение в Databricks
Настройка инфраструктуры для приложений глубокого обучения может быть сложной. Databricks Runtime для Машинное обучение заботится об этом с кластерами, которые имеют встроенные совместимые версии наиболее распространенных библиотек глубокого обучения, таких как TensorFlow, PyTorch и Keras.
Кластеры машинного обучения Databricks Runtime также включают предварительно настроенную поддержку GPU с драйверами и вспомогательными библиотеками. Она также поддерживает такие библиотеки, как Ray для параллелизации обработки вычислений для масштабирования рабочих процессов машинного обучения и приложений машинного обучения.
Кластеры машинного обучения Databricks Runtime также включают предварительно настроенную поддержку GPU с драйверами и вспомогательными библиотеками. Служба модели ИИ мозаики позволяет создавать масштабируемые конечные точки GPU для моделей глубокого обучения без дополнительной настройки.
Для приложений машинного обучения Databricks рекомендует использовать кластер, на котором выполняется Databricks Runtime для машинного обучения. См. статью "Создание кластера с помощью машинного обучения среды выполнения Databricks".
Чтобы get начать глубокое обучение на Databricks, см. далее:
- Рекомендации по глубокому обучению в Azure Databricks
- Глубокое обучение в Databricks
- Справочные решения для глубокого обучения
Следующие шаги
Чтобы начать работу с get, см. статью:
Рекомендуемый рабочий процесс MLOps в Databricks Mosaic AI см. в статье:
Дополнительные сведения о ключевых функциях Databricks Mosaic AI см. в следующем разделе: