Просмотр, управление и анализ запусков тонкой настройки модели Foundation

Статья
11/15/2024

Внимание

Эта функция доступна в общедоступной предварительной версии в

В этой статье описывается, как просматривать, управлять и анализировать точную настройку модели Foundation (в настоящее время часть Обучения модели ИИ Мозаики) выполняется с помощью API или с помощью пользовательского интерфейса.

Сведения о создании запусков см. в статье "Создание обучающего запуска с помощью API тонкой настройки модели Foundation" и создание обучающего запуска с помощью пользовательского интерфейса тонкой настройки модели Foundation.

Использование API-интерфейсов точной настройки модели Foundation для просмотра запусков обучения и управления ими

API-интерфейсы тонкой настройки модели Foundation предоставляют следующие функции для управления выполнением обучения.

Получение запуска

Используйте функцию get() для возврата запуска по имени или объекту запуска, который вы запустили.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Список запусков

Используйте функцию list() для просмотра запущенных запусков. В следующей таблице перечислены необязательные фильтры, которые можно указать.

Необязательный фильтр	Определение
`finetuning_runs`	Список запусков для получения. По умолчанию для выбора всех запусков.
`user_emails`	Если для рабочей области включен общий запуск, можно фильтровать результаты пользователем, отправившим обучающий запуск. По умолчанию не используется фильтр пользователя.
`before`	Строка datetime или datetime для фильтрации выполняется раньше. По умолчанию для всех запусков.
`after`	Строка datetime или datetime для фильтрации выполняется после. По умолчанию для всех запусков.

from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Отмена выполнения обучения

Чтобы отменить одно обучающее выполнение, используйте функцию и передайте cancel() имя запуска.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Чтобы отменить несколько запусков обучения, передайте имена определенных запусков в виде списка.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

Чтобы отменить все обучающие запуски в эксперименте, передайте идентификатор эксперимента.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

Просмотр состояния выполнения обучения

В следующей таблице перечислены события, созданные учебным запуском. Используйте функцию get_events() в любое время во время выполнения, чтобы увидеть ход выполнения.

Примечание.

Базовая настройка модели обеспечивает ограничение в 10 активных запусков. Эти запуски находятся в очереди, выполнении или завершении. Запуски больше не считаются активными после того, как они находятся в состоянии COMPLETED, FAILED или STOPPED.

Тип события	Пример сообщения о событии	Определение
`CREATED`	Запуск создан.	Был создан учебный запуск. Если ресурсы доступны, запускается запуск. В противном случае он вводит `Pending` состояние.
`STARTED`	Запуск запущен.	Ресурсы были выделены, а запуск запущен.
`DATA_VALIDATED`	Проверенные данные обучения.	Проверено правильность форматирования обучающих данных.
`MODEL_INITIALIZED`	Скачанные и инициализированные данные модели для базовой модели `meta-llama/Llama-2-7b-chat-hf`.	Весовые значения базовой модели скачаны, а обучение готово к началу.
`TRAIN_UPDATED`	[эпоха=1/1][batch=50/56][ETA=5min] Потеря поезда: 1.71	Сообщает текущий пакет обучения, эпоху или токен, предполагаемое время для завершения обучения (не включая время отправки контрольных точек) и потери обучения. Это событие обновляется при завершении каждого пакета. Если конфигурация выполнения указывает `max_duration` в `tok` единицах, ход выполнения сообщается в маркерах.
`TRAIN_FINISHED`	Обучение завершено.	Обучение завершено. Начинается отправка контрольных точек.
`COMPLETED`	Выполнение завершено. Последние весы отправлены.	Контрольная точка была отправлена, и выполнение завершено.
`CANCELED`	Выполнение отменено.	Выполнение отменяется, если `fm.cancel()` он вызывается.
`FAILED`	Один или несколько примеров набора данных для обучения имеют неизвестные ключи. Ознакомьтесь с документацией по поддерживаемым форматам данных.	Сбой выполнения. Проверьте сведения о действии или обратитесь `event_message` в службу поддержки.

from databricks.model_training import foundation_model as fm

fm.get_events()

Просмотр запусков и управление ими с помощью пользовательского интерфейса

Чтобы просмотреть запуски в пользовательском интерфейсе, выполните следующие действия:

Щелкните "Эксперименты" в левой панели навигации, чтобы отобразить страницу "Эксперименты".
В таблице щелкните имя эксперимента, чтобы отобразить страницу эксперимента. На странице эксперимента перечислены все связанные с ним запуски.
Чтобы отобразить дополнительные сведения или метрики в таблице, щелкните и выберите элементы, отображаемые в меню:
Дополнительные сведения о запуске доступны на вкладке диаграммы :
Вы также можете щелкнуть имя запуска, чтобы отобразить экран запуска. На этом экране вы получите доступ к дополнительным сведениям о выполнении.

Контрольные точки

Чтобы получить доступ к папке контрольной точки, перейдите на вкладку "Артефакты" на экране запуска. Откройте имя эксперимента и откройте папку контрольных точек. Эти контрольные точки артефакта не совпадают с зарегистрированной моделью в конце обучения.

Папка контрольных точек на вкладке артефактов

В этой папке есть несколько каталогов:

Папки эпохи (именованные ep<n>-xxx) содержат весовые значения и состояния модели на каждой контрольной точке Composer. Контрольные точки композитора периодически сохраняются с помощью обучения, они используются для возобновления выполнения обучения точной настройки и продолжения тонкой настройки. Эта контрольная точка — это то, что вы передаете в качестве custom_weights_path запуска другого учебного запуска из этих весов, см. в разделе "Сборка на основе пользовательских весов модели".
В папке huggingface контрольные точки распознавания лиц также сохраняются периодически с помощью обучения. Скачав содержимое в этой папке, вы можете загрузить эти контрольные точки, как и любые другие контрольные точки hugging Face с помощью AutoModelForCausalLM.from_pretrained(<downloaded folder>).
Это checkpoints/latest-sharded-rank0.symlink файл, содержащий путь к последней контрольной точке, который можно использовать для возобновления обучения.

Вы также можете получить контрольные точки Composer для запуска после их сохранения.get_checkpoints(run) Эта функция принимает объект run в качестве входных данных. Если контрольные точки еще не существуют, вам будет предложено повторить попытку после сохранения контрольных точек.

Поделиться через