Läsa in data för maskininlärning och djupinlärning
Det här avsnittet innehåller information om att läsa in data specifikt för ML- och DL-program. Allmän information om inläsning av data finns i Mata in data i ett Databricks lakehouse.
Lagra filer för datainläsning och modellkontrollpunkter
Maskininlärningsprogram kan behöva använda delad lagring för datainläsning och modellkontrollpunkter. Detta är särskilt viktigt för distribuerad djupinlärning.
Azure Databricks tillhandahåller Unity Catalog, en enhetlig styrningslösning för data och AI-tillgångar. Du kan använda Unity Catalog för att komma åt data i ett kluster med hjälp av både Spark- och lokala fil-API:er.
Läsa in tabelldata
Du kan läsa in tabellbaserade maskininlärningsdata från tables eller filer (till exempel se Läsa CSV-filer). Du kan konvertera Apache Spark DataFrames till Pandas DataFrames med hjälp av PySpark-metodentoPandas()
och sedan konvertera till NumPy-format med pyspark-metoden to_numpy()
.
Förbereda data för att finjustera stora språkmodeller
Du kan förbereda dina data för finjustering öppen källkod stora språkmodeller med Hugging Face Transformers och Hugging Face Datasets.
Förbereda data för finjustering av Hugging Face-modeller
Förbereda data för distribuerad djupinlärningsträning
Det här avsnittet beskriver hur du förbereder data för distribuerad djupinlärningsträning med hjälp av Mosaic Streaming och TFRecords.