Загрузка данных для машинного обучения и глубокого обучения
В этом разделе содержатся сведения о загрузке данных специально для приложений машинного и глубокого обучения. Общие сведения о загрузке данных см. в разделе "Прием данных" в databricks lakehouse.
Хранение данных для загрузки и назначения контрольных точек модели
Для загрузки данных и назначения контрольных точек модели приложениям машинного обучения может потребоваться общее хранилище. Это особенно важно для распределенного глубокого обучения.
Azure Databricks предоставляет Unity Catalog, унифицированное решение для управления данными и активами ИИ. Каталог Unity можно использовать для доступа к данным в кластере с помощью API Spark и локальных файлов.
Загрузка табличных данных
Вы можете загрузить табличные данные машинного обучения из таблиц или файлов (например, просмотреть CSV-файлы). Вы можете преобразовать Apache Spark DataFrames в pandas DataFrames с помощью toPandas()
PySpark.
Подготовка данных для точной настройки больших языковых моделей
Вы можете подготовить данные для точной настройки открытый код больших языковых моделей с помощью обнимания преобразователей лиц и наборов данных обнимания лиц.
Подготовка данных для точной настройки моделей распознавания лиц
Подготовка данных для распределенного обучения глубокого обучения
В этом разделе рассматриваются сведения о подготовке данных для распределенного обучения глубокого обучения с помощью потоковой передачи мозаики и TFRecords.