Поделиться через


Просмотр, управление и анализ запусков тонкой настройки модели Foundation

Внимание

Эта функция доступна в общедоступной предварительной версии в

В этой статье описывается, как просматривать, управлять и анализировать точную настройку модели Foundation (в настоящее время часть Обучения модели ИИ Мозаики) выполняется с помощью API или с помощью пользовательского интерфейса.

Сведения о создании запусков см. в статье "Создание обучающего запуска с помощью API тонкой настройки модели Foundation" и создание обучающего запуска с помощью пользовательского интерфейса тонкой настройки модели Foundation.

Использование API-интерфейсов точной настройки модели Foundation для просмотра запусков обучения и управления ими

API-интерфейсы тонкой настройки модели Foundation предоставляют следующие функции для управления выполнением обучения.

Получение запуска

Используйте функцию get() для возврата запуска по имени или объекту запуска, который вы запустили.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Список запусков

Используйте функцию list() для просмотра запущенных запусков. В следующей таблице перечислены необязательные фильтры, которые можно указать.

Необязательный фильтр Определение
finetuning_runs Список запусков для получения. По умолчанию для выбора всех запусков.
user_emails Если для рабочей области включен общий запуск, можно фильтровать результаты пользователем, отправившим обучающий запуск. По умолчанию не используется фильтр пользователя.
before Строка datetime или datetime для фильтрации выполняется раньше. По умолчанию для всех запусков.
after Строка datetime или datetime для фильтрации выполняется после. По умолчанию для всех запусков.
from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Отмена выполнения обучения

Чтобы отменить одно обучающее выполнение, используйте функцию и передайте cancel() имя запуска.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Чтобы отменить несколько запусков обучения, передайте имена определенных запусков в виде списка.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

Чтобы отменить все обучающие запуски в эксперименте, передайте идентификатор эксперимента.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

Просмотр состояния выполнения обучения

В следующей таблице перечислены события, созданные учебным запуском. Используйте функцию get_events() в любое время во время выполнения, чтобы увидеть ход выполнения.

Примечание.

Базовая настройка модели обеспечивает ограничение в 10 активных запусков. Эти запуски находятся в очереди, выполнении или завершении. Запуски больше не считаются активными после того, как они находятся в состоянии COMPLETED, FAILED или STOPPED.

Тип события Пример сообщения о событии Определение
CREATED Запуск создан. Был создан учебный запуск. Если ресурсы доступны, запускается запуск. В противном случае он вводит Pending состояние.
STARTED Запуск запущен. Ресурсы были выделены, а запуск запущен.
DATA_VALIDATED Проверенные данные обучения. Проверено правильность форматирования обучающих данных.
MODEL_INITIALIZED Скачанные и инициализированные данные модели для базовой модели meta-llama/Llama-2-7b-chat-hf. Весовые значения базовой модели скачаны, а обучение готово к началу.
TRAIN_UPDATED [эпоха=1/1][batch=50/56][ETA=5min] Потеря поезда: 1.71 Сообщает текущий пакет обучения, эпоху или токен, предполагаемое время для завершения обучения (не включая время отправки контрольных точек) и потери обучения. Это событие обновляется при завершении каждого пакета. Если конфигурация выполнения указывает max_duration в tok единицах, ход выполнения сообщается в маркерах.
TRAIN_FINISHED Обучение завершено. Обучение завершено. Начинается отправка контрольных точек.
COMPLETED Выполнение завершено. Последние весы отправлены. Контрольная точка была отправлена, и выполнение завершено.
CANCELED Выполнение отменено. Выполнение отменяется, если fm.cancel() он вызывается.
FAILED Один или несколько примеров набора данных для обучения имеют неизвестные ключи. Ознакомьтесь с документацией по поддерживаемым форматам данных. Сбой выполнения. Проверьте сведения о действии или обратитесь event_message в службу поддержки.
from databricks.model_training import foundation_model as fm

fm.get_events()

Просмотр запусков и управление ими с помощью пользовательского интерфейса

Чтобы просмотреть запуски в пользовательском интерфейсе, выполните следующие действия:

  1. Щелкните "Эксперименты" в левой панели навигации, чтобы отобразить страницу "Эксперименты".

  2. В таблице щелкните имя эксперимента, чтобы отобразить страницу эксперимента. На странице эксперимента перечислены все связанные с ним запуски.

    Страница эксперимента

  3. Чтобы отобразить дополнительные сведения или метрики в таблице, щелкните знак плюс и выберите элементы, отображаемые в меню:

    добавление метрик на диаграмму

  4. Дополнительные сведения о запуске доступны на вкладке диаграммы :

    Вкладка диаграммы

  5. Вы также можете щелкнуть имя запуска, чтобы отобразить экран запуска. На этом экране вы получите доступ к дополнительным сведениям о выполнении.

    Страница запуска

Контрольные точки

Чтобы получить доступ к папке контрольной точки, перейдите на вкладку "Артефакты" на экране запуска. Откройте имя эксперимента и откройте папку контрольных точек. Эти контрольные точки артефакта не совпадают с зарегистрированной моделью в конце обучения.

Папка контрольных точек на вкладке артефактов

В этой папке есть несколько каталогов:

  • Папки эпохи (именованные ep<n>-xxx) содержат весовые значения и состояния модели на каждой контрольной точке Composer. Контрольные точки композитора периодически сохраняются с помощью обучения, они используются для возобновления выполнения обучения точной настройки и продолжения тонкой настройки. Эта контрольная точка — это то, что вы передаете в качестве custom_weights_path запуска другого учебного запуска из этих весов, см. в разделе "Сборка на основе пользовательских весов модели".
  • В папке huggingface контрольные точки распознавания лиц также сохраняются периодически с помощью обучения. Скачав содержимое в этой папке, вы можете загрузить эти контрольные точки, как и любые другие контрольные точки hugging Face с помощью AutoModelForCausalLM.from_pretrained(<downloaded folder>).
  • Это checkpoints/latest-sharded-rank0.symlink файл, содержащий путь к последней контрольной точке, который можно использовать для возобновления обучения.

Вы также можете получить контрольные точки Composer для запуска после их сохранения.get_checkpoints(run) Эта функция принимает объект run в качестве входных данных. Если контрольные точки еще не существуют, вам будет предложено повторить попытку после сохранения контрольных точек.