Dela via


Läsa in data för maskininlärning och djupinlärning

Det här avsnittet innehåller information om att läsa in data specifikt för ML- och DL-program. Allmän information om inläsning av data finns i Mata in data i ett Databricks lakehouse.

Lagra filer för datainläsning och modellkontrollpunkter

Maskininlärningsprogram kan behöva använda delad lagring för datainläsning och modellkontrollpunkter. Detta är särskilt viktigt för distribuerad djupinlärning.

Azure Databricks tillhandahåller Unity Catalog, en enhetlig styrningslösning för data och AI-tillgångar. Du kan använda Unity Catalog för att komma åt data i ett kluster med hjälp av både Spark- och lokala fil-API:er.

Läsa in tabelldata

Du kan läsa in tabellbaserade maskininlärningsdata från tables eller filer (till exempel se Läsa CSV-filer). Du kan konvertera Apache Spark DataFrames till Pandas DataFrames med hjälp av PySpark-metodentoPandas()och sedan konvertera till NumPy-format med pyspark-metoden to_numpy().

Förbereda data för att finjustera stora språkmodeller

Du kan förbereda dina data för finjustering öppen källkod stora språkmodeller med Hugging Face Transformers och Hugging Face Datasets.

Förbereda data för finjustering av Hugging Face-modeller

Förbereda data för distribuerad djupinlärningsträning

Det här avsnittet beskriver hur du förbereder data för distribuerad djupinlärningsträning med hjälp av Mosaic Streaming och TFRecords.