Carga de datos para el aprendizaje automático y el aprendizaje profundo

Artículo
01/29/2025

En esta sección se incluye información sobre cómo cargar datos específicamente para las aplicaciones de aprendizaje automático y aprendizaje profundo. Para información general sobre cómo cargar datos, consulte Ingesta de datos en un lago de datos de Databricks.

Almacenamiento de archivos para la carga de datos y los puntos de control de modelo

Es posible que las aplicaciones de aprendizaje automático deban usar el almacenamiento compartido para la carga de datos y la creación de puntos de comprobación del modelo. Esto es especialmente importante para el aprendizaje profundo distribuido.

Azure Databricks proporciona Unity Catalog, una solución de gobernanza unificada para los recursos de datos e IA. Puede usar el Catálogo de Unity para acceder a los datos de un clúster mediante spark y las API de archivos locales.

Carga de datos tabulares

Puede cargar datos de aprendizaje automático tabulares desde tablas de o archivos (por ejemplo, consulte Leer archivos CSV). Puede convertir DataFrames de Apache Spark en DataFrames de Pandas mediante el método PySparktoPandas(), y opcionalmente, convertir en formato NumPy mediante el método PySparkto_numpy().

Preparación de datos para ajustar modelos de lenguaje grandes

Con Hugging Face Transformers y Hugging Face Datasets puede preparar sus datos para ajustar grandes modelos de lenguaje de código abierto.

Preparar los datos para ajustar los modelos de Hugging Face

Preparar los datos para el entrenamiento de aprendizaje profundo distribuido

En esta sección se trata la preparación de datos para el entrenamiento de aprendizaje profundo distribuido mediante Mosaic Streaming y TFRecords.

Compartir a través de

Carga de datos para el aprendizaje automático y el aprendizaje profundo

Almacenamiento de archivos para la carga de datos y los puntos de control de modelo

Carga de datos tabulares

Preparación de datos para ajustar modelos de lenguaje grandes

Preparar los datos para el entrenamiento de aprendizaje profundo distribuido

Comentarios

Recursos adicionales