Ładowanie danych na potrzeby uczenia maszynowego i uczenia głębokiego

Artykuł
01/22/2025

Ta sekcja zawiera informacje dotyczące ładowania danych przeznaczonych dla aplikacji uczenia maszynowego i uczenia głębokiego. Aby uzyskać ogólne informacje na temat ładowania danych, zobacz Pozyskiwanie danych do usługi Databricks Lakehouse.

Przechowywanie plików na potrzeby ładowania danych i tworzenia punktów kontrolnych modelu

Aplikacje uczenia maszynowego mogą wymagać użycia magazynu udostępnionego do ładowania danych i tworzenia punktów kontrolnych modelu. Jest to szczególnie ważne w przypadku rozproszonego uczenia głębokiego.

Usługa Azure Databricks udostępnia Unity Catalog, ujednolicone rozwiązanie do zapewniania ładu dla danych i zasobów sztucznej inteligencji. Możesz użyć Unity Catalog do uzyskiwania dostępu do danych w klastrze przy użyciu interfejsów API Spark oraz lokalnych plików.

Ładowanie danych tabelarycznych

Dane uczenia maszynowego tabelarycznego można załadować z tables lub plików (na przykład zobacz Odczytywanie plików CSV). Ramki danych platformy Apache Spark można przekonwertować na ramki danych biblioteki pandas przy użyciu PySpark, a następnie opcjonalnie przekonwertować na format NumPy przy użyciu toPandas()PySpark .

Przygotowywanie danych w celu dostosowania dużych modeli językowych

Możesz przygotować dane do precyzyjnego dostrajania dużych modeli językowych typu open source za pomocą funkcji uściśliania przekształcania twarzy i przytulania zestawów danych twarzy.

Przygotowywanie danych do precyzyjnego dostrajania modeli twarzy

Przygotowywanie danych do trenowania rozproszonego uczenia głębokiego

W tej sekcji opisano przygotowywanie danych do trenowania rozproszonego uczenia głębokiego przy użyciu biblioteki Mosaic Streaming i TFRecords.

Udostępnij za pośrednictwem

Ładowanie danych na potrzeby uczenia maszynowego i uczenia głębokiego

Przechowywanie plików na potrzeby ładowania danych i tworzenia punktów kontrolnych modelu

Ładowanie danych tabelarycznych

Przygotowywanie danych w celu dostosowania dużych modeli językowych

Przygotowywanie danych do trenowania rozproszonego uczenia głębokiego

Opinia

Dodatkowe zasoby