Načtení dat pro strojové učení a hluboké učení
Tato část obsahuje informace o načítání dat určené speciálně pro aplikace ML a DL. Obecné informace o načítání dat najdete v tématu Ingestování dat do databricks lakehouse.
Ukládání souborů pro načítání dat a vytváření kontrolních bodů modelu
Aplikace strojového učení mohou pro načítání dat a vytváření kontrolních bodů modelu potřebovat využití sdíleného úložiště. Je to důležité hlavně pro distribuované hluboké učení.
Azure Databricks poskytuje Unity Catalog– jednotné řešení zásad správného řízení pro data a prostředky AI. Unity Catalog můžete použít pro přístup k datům v clusteru pomocí rozhraní SPARK i místních rozhraní API souborů.
Načítání tabulkových dat
Data tabulkového strojového učení můžete načíst z tables nebo souborů (například viz Čtení souborů CSV). Datové rámce Apache Sparku můžete převést na datové rámce pandas pomocí PySpark a pak volitelně převést na formát NumPy pomocí toPandas()
PySpark .
Příprava dat na vyladění velkých jazykových modelů
Data můžete připravit na vyladění opensourcových velkých jazykových modelů s hugging face transformers a datovými sadami Hugging Face Datasets.
Příprava dat na vyladění modelů Hugging Face
Příprava dat pro distribuované trénování hlubokého učení
Tato část se zabývá přípravou dat pro distribuované trénování hlubokého učení s využitím streamingu Mosaic a TFRecords.