Глубокое обучение
В этой статье приводится краткое введение в использование PyTorch, Tensorflow и распределенное обучение для разработки и точной настройки моделей глубокого обучения в Azure Databricks. Она также содержит ссылки на страницы с примерами записных книжек, иллюстрирующих использование этих средств.
- Для получения общих рекомендаций по оптимизации рабочих процессов глубокого обучения в Azure Databricks см. Лучшие практики глубокого обучения в Azure Databricks.
- Сведения о работе с большими языковыми моделями и генерируемым ИИ в Azure Databricks см. в следующем разделе:
PyTorch
PyTorch входит в Databricks Runtime ML и обеспечивает ускоренное с помощью GPU вычисление тензоров, а также предоставляет высокоуровневые функции для создания сетей глубокого обучения. Вы можете выполнять обучение с одним узлом или распределенное обучение с помощью PyTorch в Databricks. См. PyTorch.
TensorFlow
Машинное обучение среды выполнения Databricks включает TensorFlow и TensorBoard, поэтому эти библиотеки можно использовать без установки пакетов. TensorFlow поддерживает глубокое обучение и общие числовые вычисления на ЦП, GPU и кластерах GPU. TensorBoard предоставляет средства визуализации для отладки и оптимизации рабочих процессов машинного обучения и глубокого обучения. Смотрите TensorFlow для примеров обучения на одном узле и распределенного обучения.
Распределенное обучение
Поскольку модели глубокого обучения требуют больших объемов данных и значительных вычислительных ресурсов, распределенное обучение может быть важным. Примеры распределенного глубокого обучения с помощью интеграции с Ray, TorchDistributor и DeepSpeed см . в разделе "Распределенное обучение".
Отслеживание разработки моделей глубокого обучения
Отслеживание остается краеугольным камнем экосистемы MLflow и особенно жизненно важно для итеративной природы глубокого обучения. Databricks использует MLflow для отслеживания запусков глубокого обучения и разработки моделей. См. раздел "Отслеживание разработки моделей с помощью MLflow".