Sdílet prostřednictvím


Načtení dat pro strojové učení a hluboké učení

Tato část obsahuje informace o načítání dat určené speciálně pro aplikace ML a DL. Obecné informace o načítání dat najdete v tématu Ingestování dat do databricks lakehouse.

Ukládání souborů pro načítání dat a vytváření kontrolních bodů modelu

Aplikace strojového učení mohou pro načítání dat a vytváření kontrolních bodů modelu potřebovat využití sdíleného úložiště. Je to důležité hlavně pro distribuované hluboké učení.

Azure Databricks poskytuje Unity Catalog– jednotné řešení zásad správného řízení pro data a prostředky AI. Unity Catalog můžete použít pro přístup k datům v clusteru pomocí rozhraní SPARK i místních rozhraní API souborů.

Načítání tabulkových dat

Data tabulkového strojového učení můžete načíst z tables nebo souborů (například viz Čtení souborů CSV). Datové rámce Apache Sparku můžete převést na datové rámce pandas pomocí PySpark a pak volitelně převést na formát NumPy pomocí toPandas()PySpark .

Příprava dat na vyladění velkých jazykových modelů

Data můžete připravit na vyladění opensourcových velkých jazykových modelů s hugging face transformers a datovými sadami Hugging Face Datasets.

Příprava dat na vyladění modelů Hugging Face

Příprava dat pro distribuované trénování hlubokého učení

Tato část se zabývá přípravou dat pro distribuované trénování hlubokého učení s využitím streamingu Mosaic a TFRecords.