Просмотр, управление и анализ запусков тонкой настройки модели Foundation
В этой статье описывается, как просматривать, управлять и анализировать точную настройку модели Foundation (в настоящее время часть Обучения модели ИИ Мозаики) выполняется с помощью API или с помощью пользовательского интерфейса.
Сведения о создании запусков см. в статье "Создание обучающего запуска с помощью API тонкой настройки модели Foundation" и создание обучающего запуска с помощью пользовательского интерфейса тонкой настройки модели Foundation.
Использование API-интерфейсов точной настройки модели Foundation для просмотра запусков обучения и управления ими
API-интерфейсы тонкой настройки модели Foundation предоставляют следующие функции для управления выполнением обучения.
Получение запуска
Используйте функцию get()
для возврата запуска по имени или объекту запуска, который вы запустили.
from databricks.model_training import foundation_model as fm
fm.get('<your-run-name>')
Список запусков
Используйте функцию list()
для просмотра запущенных запусков. В следующей таблице перечислены необязательные фильтры, которые можно указать.
Необязательный фильтр | Определение |
---|---|
finetuning_runs |
Список запусков для получения. По умолчанию для выбора всех запусков. |
user_emails |
Если для рабочей области включен общий запуск, можно фильтровать результаты пользователем, отправившим обучающий запуск. По умолчанию не используется фильтр пользователя. |
before |
Строка datetime или datetime для фильтрации выполняется раньше. По умолчанию для всех запусков. |
after |
Строка datetime или datetime для фильтрации выполняется после. По умолчанию для всех запусков. |
from databricks.model_training import foundation_model as fm
fm.list()
# filtering example
fm.list(before='2023-01-01', limit=50)
Отмена выполнения обучения
Чтобы отменить одно обучающее выполнение, используйте функцию и передайте cancel()
имя запуска.
from databricks.model_training import foundation_model as fm
run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)
Чтобы отменить несколько запусков обучения, передайте имена определенных запусков в виде списка.
from databricks.model_training import foundation_model as fm
runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)
Чтобы отменить все обучающие запуски в эксперименте, передайте идентификатор эксперимента.
from databricks.model_training import foundation_model as fm
experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)
Просмотр состояния выполнения обучения
В следующей таблице перечислены события, созданные учебным запуском. Используйте функцию get_events()
в любое время во время выполнения, чтобы увидеть ход выполнения.
Примечание.
Базовая настройка модели обеспечивает ограничение в 10 активных запусков. Эти запуски находятся в очереди, выполнении или завершении. Запуски больше не считаются активными после того, как они находятся в состоянии COMPLETED, FAILED или STOPPED.
Тип события | Пример сообщения о событии | Определение |
---|---|---|
CREATED |
Запуск создан. | Был создан учебный запуск. Если ресурсы доступны, запускается запуск. В противном случае он вводит Pending состояние. |
STARTED |
Запуск запущен. | Ресурсы были выделены, а запуск запущен. |
DATA_VALIDATED |
Проверенные данные обучения. | Проверено правильность форматирования обучающих данных. |
MODEL_INITIALIZED |
Скачанные и инициализированные данные модели для базовой модели meta-llama/Llama-2-7b-chat-hf . |
Весовые значения базовой модели скачаны, а обучение готово к началу. |
TRAIN_UPDATED |
[эпоха=1/1][batch=50/56][ETA=5min] Потеря поезда: 1.71 | Сообщает текущий пакет обучения, эпоху или токен, предполагаемое время для завершения обучения (не включая время отправки контрольных точек) и потери обучения. Это событие обновляется при завершении каждого пакета. Если конфигурация выполнения указывает max_duration в tok единицах, ход выполнения сообщается в маркерах. |
TRAIN_FINISHED |
Обучение завершено. | Обучение завершено. Начинается отправка контрольных точек. |
COMPLETED |
Выполнение завершено. Последние весы отправлены. | Контрольная точка была отправлена, и выполнение завершено. |
CANCELED |
Выполнение отменено. | Выполнение отменяется, если fm.cancel() он вызывается. |
FAILED |
Один или несколько примеров набора данных для обучения имеют неизвестные ключи. Ознакомьтесь с документацией по поддерживаемым форматам данных. | Сбой выполнения. Проверьте сведения о действии или обратитесь event_message в службу поддержки. |
from databricks.model_training import foundation_model as fm
fm.get_events()
Просмотр запусков и управление ими с помощью пользовательского интерфейса
Чтобы просмотреть запуски в пользовательском интерфейсе, выполните следующие действия:
Щелкните "Эксперименты" в левой панели навигации, чтобы отобразить страницу "Эксперименты".
В таблице щелкните имя эксперимента, чтобы отобразить страницу эксперимента. На странице эксперимента перечислены все связанные с ним запуски.
Чтобы отобразить дополнительные сведения или метрики в таблице, щелкните
и выберите элементы, отображаемые в меню:
Дополнительные сведения о запуске доступны на вкладке диаграммы :
Вы также можете щелкнуть имя запуска, чтобы отобразить экран запуска. На этом экране вы получите доступ к дополнительным сведениям о выполнении.
Контрольные точки
Чтобы получить доступ к папке контрольной точки, перейдите на вкладку "Артефакты" на экране запуска. Откройте имя эксперимента и откройте папку контрольных точек. Эти контрольные точки артефакта не совпадают с зарегистрированной моделью в конце обучения.
В этой папке есть несколько каталогов:
- Папки эпохи (именованные
ep<n>-xxx
) содержат весовые значения и состояния модели на каждой контрольной точке Composer. Контрольные точки композитора периодически сохраняются с помощью обучения, они используются для возобновления выполнения обучения точной настройки и продолжения тонкой настройки. Эта контрольная точка — это то, что вы передаете в качествеcustom_weights_path
запуска другого учебного запуска из этих весов, см. в разделе "Сборка на основе пользовательских весов модели". - В папке
huggingface
контрольные точки распознавания лиц также сохраняются периодически с помощью обучения. Скачав содержимое в этой папке, вы можете загрузить эти контрольные точки, как и любые другие контрольные точки hugging Face с помощьюAutoModelForCausalLM.from_pretrained(<downloaded folder>)
. - Это
checkpoints/latest-sharded-rank0.symlink
файл, содержащий путь к последней контрольной точке, который можно использовать для возобновления обучения.
Вы также можете получить контрольные точки Composer для запуска после их сохранения.get_checkpoints(run)
Эта функция принимает объект run в качестве входных данных. Если контрольные точки еще не существуют, вам будет предложено повторить попытку после сохранения контрольных точек.