Udostępnij za pośrednictwem


Ładowanie danych na potrzeby uczenia maszynowego i uczenia głębokiego

Ta sekcja zawiera informacje dotyczące ładowania danych przeznaczonych dla aplikacji uczenia maszynowego i uczenia głębokiego. Aby uzyskać ogólne informacje na temat ładowania danych, zobacz Pozyskiwanie danych do usługi Databricks Lakehouse.

Przechowywanie plików na potrzeby ładowania danych i tworzenia punktów kontrolnych modelu

Aplikacje uczenia maszynowego mogą wymagać użycia magazynu udostępnionego do ładowania danych i tworzenia punktów kontrolnych modelu. Jest to szczególnie ważne w przypadku rozproszonego uczenia głębokiego.

Usługa Azure Databricks udostępnia katalog Unity, ujednolicone rozwiązanie do zapewniania ładu dla danych i zasobów sztucznej inteligencji. Możesz użyć Unity Catalog do uzyskiwania dostępu do danych w klastrze przy użyciu interfejsów API Spark i lokalnych plików.

Ładowanie danych tabelarycznych

Dane uczenia maszynowego tabelarycznego można załadować z tabel lub plików (na przykład zobacz Odczyt plików CSV). Ramki danych platformy Apache Spark można przekonwertować na ramki danych biblioteki pandas przy użyciu toPandas() PySpark, a następnie opcjonalnie przekonwertować na format NumPy przy użyciu metodyto_numpy()PySpark .

Przygotowywanie danych w celu dostosowania dużych modeli językowych

Możesz przygotować dane do precyzyjnego dostrajania dużych modeli językowych typu open source za pomocą funkcji uściśliania przekształcania twarzy i przytulania zestawów danych twarzy.

Przygotowywanie danych do precyzyjnego dostrajania modeli twarzy

Przygotowywanie danych do trenowania rozproszonego uczenia głębokiego

W tej sekcji opisano przygotowywanie danych do trenowania rozproszonego uczenia głębokiego przy użyciu biblioteki Mosaic Streaming i TFRecords.