Carregar dados para aprendizado de máquina e aprendizado profundo
Esta seção aborda informações sobre como carregar dados especificamente para aplicativos de ML e DL. Para obter informações gerais sobre o carregamento de dados, veja Ingerir dados em um databricks lakehouse.
Armazenar arquivos para carregamento de dados e definição do ponto de verificação de modelo
Os aplicativos de machine learning podem precisar usar o armazenamento compartilhado para o carregamento de dados e a definição do ponto de verificação de modelo. Isso é particularmente importante para o aprendizado profundo distribuído.
O Azure Databricks fornece o Catálogo Unity , uma solução de governança unificada para dados e ativos de IA. Você pode usar o Catálogo do Unity para acessar dados em um cluster usando APIs de arquivo local e Spark.
Carregar dados de tabela
Você pode carregar dados tabulares de aprendizado de máquina de tabelas ou arquivos (por exemplo, consulte Leitura de arquivos CSV). Você pode converter Apache Spark DataFrames em pandas DataFrames usando o método PySparktoPandas()
e, opcionalmente, converter para o formato NumPy usando o método PySparkto_numpy()
.
Preparar dados para ajustar modelos de linguagem grandes
Você pode preparar seus dados para ajuste fino código aberto modelos de linguagem grandes com o Hugging Face Transformers e o Hugging Face Dataset.
Preparar os dados para ajuste fino de modelos do Hugging Face
Preparar dados para treinamento de aprendizado profundo distribuído
Esta seção aborda a preparação de dados para treinamento distribuído de aprendizado profundo usando Mosaic Streaming e TFRecords.