Ładowanie danych na potrzeby uczenia maszynowego i uczenia głębokiego
Ta sekcja zawiera informacje dotyczące ładowania danych przeznaczonych dla aplikacji uczenia maszynowego i uczenia głębokiego. Aby uzyskać ogólne informacje na temat ładowania danych, zobacz Pozyskiwanie danych do usługi Databricks Lakehouse.
Przechowywanie plików na potrzeby ładowania danych i tworzenia punktów kontrolnych modelu
Aplikacje uczenia maszynowego mogą wymagać użycia magazynu udostępnionego do ładowania danych i tworzenia punktów kontrolnych modelu. Jest to szczególnie ważne w przypadku rozproszonego uczenia głębokiego.
Usługa Azure Databricks udostępnia Unity Catalog, ujednolicone rozwiązanie do zapewniania ładu dla danych i zasobów sztucznej inteligencji. Możesz użyć Unity Catalog do uzyskiwania dostępu do danych w klastrze przy użyciu interfejsów API Spark oraz lokalnych plików.
Ładowanie danych tabelarycznych
Dane uczenia maszynowego tabelarycznego można załadować z tables lub plików (na przykład zobacz Odczytywanie plików CSV). Ramki danych platformy Apache Spark można przekonwertować na ramki danych biblioteki pandas przy użyciu PySpark, a następnie opcjonalnie przekonwertować na format NumPy przy użyciu toPandas()
PySpark .
Przygotowywanie danych w celu dostosowania dużych modeli językowych
Możesz przygotować dane do precyzyjnego dostrajania dużych modeli językowych typu open source za pomocą funkcji uściśliania przekształcania twarzy i przytulania zestawów danych twarzy.
Przygotowywanie danych do precyzyjnego dostrajania modeli twarzy
Przygotowywanie danych do trenowania rozproszonego uczenia głębokiego
W tej sekcji opisano przygotowywanie danych do trenowania rozproszonego uczenia głębokiego przy użyciu biblioteki Mosaic Streaming i TFRecords.