Carga de datos para el aprendizaje automático y el aprendizaje profundo
En esta sección se incluye información sobre cómo cargar datos específicamente para las aplicaciones de aprendizaje automático y aprendizaje profundo. Para información general sobre cómo cargar datos, consulte Ingesta de datos en un lago de datos de Databricks.
Almacenamiento de archivos para la carga de datos y los puntos de control de modelo
Es posible que las aplicaciones de aprendizaje automático deban usar el almacenamiento compartido para la carga de datos y la creación de puntos de comprobación del modelo. Esto es especialmente importante para el aprendizaje profundo distribuido.
Azure Databricks proporciona Unity Catalog, una solución de gobernanza unificada para los recursos de datos e IA. Puede usar el Catálogo de Unity para acceder a los datos de un clúster mediante spark y las API de archivos locales.
Carga de datos tabulares
Puede cargar datos tabulares de aprendizaje automático a partir de tablas o archivos (por ejemplo, vea Lectura de archivos CSV). Puede convertir DataFrames de Apache Spark en DataFrames de Pandas mediante el método PySparktoPandas()
, y opcionalmente, convertir en formato NumPy mediante el método PySparkto_numpy()
.
Preparación de datos para ajustar modelos de lenguaje grandes
Con Hugging Face Transformers y Hugging Face Datasets puede preparar sus datos para ajustar grandes modelos de lenguaje de código abierto.
Preparar los datos para ajustar los modelos de Hugging Face
Preparar los datos para el entrenamiento de aprendizaje profundo distribuido
En esta sección se trata la preparación de datos para el entrenamiento de aprendizaje profundo distribuido mediante Mosaic Streaming y TFRecords.