Ładowanie danych na potrzeby uczenia maszynowego i uczenia głębokiego
Ta sekcja zawiera informacje dotyczące ładowania danych przeznaczonych dla aplikacji uczenia maszynowego i uczenia głębokiego. Aby uzyskać ogólne informacje na temat ładowania danych, zobacz Pozyskiwanie danych do usługi Databricks Lakehouse.
Przechowywanie plików na potrzeby ładowania danych i tworzenia punktów kontrolnych modelu
Aplikacje uczenia maszynowego mogą wymagać użycia magazynu udostępnionego do ładowania danych i tworzenia punktów kontrolnych modelu. Jest to szczególnie ważne w przypadku rozproszonego uczenia głębokiego.
Usługa Azure Databricks udostępnia katalog Unity, ujednolicone rozwiązanie do zapewniania ładu dla danych i zasobów sztucznej inteligencji. Możesz użyć Unity Catalog do uzyskiwania dostępu do danych w klastrze przy użyciu interfejsów API Spark i lokalnych plików.
Ładowanie danych tabelarycznych
Dane uczenia maszynowego tabelarycznego można załadować z tabel lub plików (na przykład zobacz Odczyt plików CSV). Ramki danych platformy Apache Spark można przekonwertować na ramki danych biblioteki pandas przy użyciu toPandas()
PySpark, a następnie opcjonalnie przekonwertować na format NumPy przy użyciu metodyto_numpy()
PySpark .
Przygotowywanie danych w celu dostosowania dużych modeli językowych
Możesz przygotować dane do precyzyjnego dostrajania dużych modeli językowych typu open source za pomocą funkcji uściśliania przekształcania twarzy i przytulania zestawów danych twarzy.
Przygotowywanie danych do precyzyjnego dostrajania modeli twarzy
Przygotowywanie danych do trenowania rozproszonego uczenia głębokiego
W tej sekcji opisano przygotowywanie danych do trenowania rozproszonego uczenia głębokiego przy użyciu biblioteki Mosaic Streaming i TFRecords.