Поделиться через


Загрузка данных для машинного обучения и глубокого обучения

В этом разделе содержатся сведения о загрузке данных специально для приложений машинного и глубокого обучения. Общие сведения о загрузке данных см. в разделе "Прием данных" в databricks lakehouse.

Хранение данных для загрузки и назначения контрольных точек модели

Для загрузки данных и назначения контрольных точек модели приложениям машинного обучения может потребоваться общее хранилище. Это особенно важно для распределенного глубокого обучения.

Azure Databricks предоставляет Unity Catalog, унифицированное решение для управления данными и активами ИИ. Каталог Unity можно использовать для доступа к данным в кластере с помощью API Spark и локальных файлов.

Загрузка табличных данных

Вы можете загрузить табличные данные машинного обучения из таблиц или файлов (например, просмотреть CSV-файлы). Вы можете преобразовать Apache Spark DataFrames в pandas DataFrames с помощью toPandas()PySpark.

Подготовка данных для точной настройки больших языковых моделей

Вы можете подготовить данные для точной настройки открытый код больших языковых моделей с помощью обнимания преобразователей лиц и наборов данных обнимания лиц.

Подготовка данных для точной настройки моделей распознавания лиц

Подготовка данных для распределенного обучения глубокого обучения

В этом разделе рассматриваются сведения о подготовке данных для распределенного обучения глубокого обучения с помощью потоковой передачи мозаики и TFRecords.