Руководство по созданию и развертыванию запуска тонкой настройки модели Foundation

Статья
01/21/2025

Внимание

Эта функция доступна в общедоступной предварительной версии в

В этой статье описывается, как создать и настроить запуск с помощью API тонкой настройки модели Foundation (в настоящее время входит в API обучения модели Мозаичного ИИ), а затем просмотреть результаты и развернуть модель с помощью пользовательского интерфейса Databricks и службы модели ИИ Мозаики.

Требования

Рабочая область в одном из следующих регионов Azure: centralus, eastus, eastus2, northcentralus, westcentralus. westuswestus3
Databricks Runtime 12.2 LTS ML или более поздней версии.
Это руководство должно выполняться в записной книжке Databricks.
Обучающие данные в принятом формате. См. статью "Подготовка данных для тонкой настройки модели Foundation".

Шаг 1. Подготовка данных для обучения

См. статью "Подготовка данных для тонкой настройки модели Foundation".

Шаг 2. Установка `databricks_genai` пакета SDK

Чтобы установить пакет SDK, используйте следующую databricks_genai команду.

%pip install databricks_genai

Затем импортируйте библиотеку foundation_model :

dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

Шаг 3. Создание учебного запуска

Создайте обучающий запуск с помощью функции тонкой настройки create() модели Foundation. Требуются следующие параметры:

model: модель, которую вы хотите обучить.
train_data_path: расположение обучающего набора данных в.
register_to: каталог каталога Unity и схема, в которых требуется сохранить контрольные точки.

Например:

run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

Шаг 4. Просмотр состояния выполнения

Время выполнения обучения зависит от количества маркеров, модели и доступности GPU. Для ускорения обучения Databricks рекомендует использовать зарезервированные вычислительные ресурсы. Обратитесь к группе учетной записи Databricks, чтобы получить подробные сведения.

После запуска вы можете отслеживать состояние его использования get_events().

run.get_events()

Шаг 5. Просмотр метрик и выходных данных

Выполните следующие действия, чтобы просмотреть результаты в пользовательском интерфейсе Databricks:

В рабочей области Databricks щелкните "Эксперименты" в левой панели навигации .
Выберите эксперимент из списка.
Просмотрите диаграммы метрик на вкладке "Диаграммы ". Метрики обучения создаются для каждого запуска обучения и оценки метрик создаются только в том случае, если указан путь к данным оценки.
1. Основная метрика обучения, показывающая, что ход выполнения является потерей. Потери оценки можно использовать для просмотра того, переначислила ли модель данные обучения. Однако на потери не следует полагаться полностью, потому что в задачах обучения по инструкциям потери на этапе оценки могут свидетельствовать о переобучении, в то время как модель продолжает улучшаться.
2. Чем выше точность, тем лучше ваша модель, но помните, что точность близко к 100% может продемонстрировать избыточность.
3. Следующие метрики отображаются в MLflow после выполнения:
  - LanguageCrossEntropy вычисляет перекрестную энтропию на выходных данных моделирования языка. Более низкая оценка лучше.
  - LanguagePerplexity измеряет, насколько хорошо языковая модель прогнозирует следующее слово или символ в блоке текста на основе предыдущих слов или символов. Более низкая оценка лучше.
  - TokenAccuracy вычисляет точность на уровне маркера для моделирования языка. Более высокий показатель лучше.
4. На этой вкладке можно также просмотреть выходные данные запросов оценки, если вы указали их.

Шаг 6. Оценка нескольких настраиваемых моделей с помощью оценки агента ИИ Мозаики перед развертыванием

См. раздел "Что такое оценка агента ИИ Мозаики?".

Шаг 7. Развертывание модели

Обучающий запуск автоматически регистрирует модель в каталоге Unity после его завершения. Модель регистрируется на основе того, что вы указали в register_to поле в методе выполнения create() .

Чтобы развернуть модель для обслуживания, выполните следующие действия.

Перейдите к модели в каталоге Unity.
Нажмите кнопку " Служить этой модели".
Нажмите кнопку "Создать конечную точку обслуживания".
В поле "Имя" укажите имя конечной точки.
Нажмите кнопку Создать.

Дополнительные ресурсы

Создание обучающего запуска с помощью API тонкой настройки модели Foundation
Тонкое настройка модели Foundation
Развертывание моделей с помощью Mosaic AI Model Serving
Дополнительные сведения о настройке инструкции: демонстрационная записная книжка распознавания именованных сущностей см. в примере точной настройки инструкции, которая описывает подготовку данных, настройку конфигурации и развертывания для обучения.

Поделиться через

Руководство по созданию и развертыванию запуска тонкой настройки модели Foundation

Требования

Шаг 1. Подготовка данных для обучения

Шаг 2. Установка `databricks_genai` пакета SDK

Шаг 3. Создание учебного запуска

Шаг 4. Просмотр состояния выполнения

Шаг 5. Просмотр метрик и выходных данных

Шаг 6. Оценка нескольких настраиваемых моделей с помощью оценки агента ИИ Мозаики перед развертыванием

Шаг 7. Развертывание модели

Дополнительные ресурсы

Обратная связь

Дополнительные ресурсы

Поделиться через

Руководство по созданию и развертыванию запуска тонкой настройки модели Foundation

Требования

Шаг 1. Подготовка данных для обучения

Шаг 2. Установка databricks_genai пакета SDK

Шаг 3. Создание учебного запуска

Шаг 4. Просмотр состояния выполнения

Шаг 5. Просмотр метрик и выходных данных

Шаг 6. Оценка нескольких настраиваемых моделей с помощью оценки агента ИИ Мозаики перед развертыванием

Шаг 7. Развертывание модели

Дополнительные ресурсы

Обратная связь

Дополнительные ресурсы

Шаг 2. Установка `databricks_genai` пакета SDK