Inżynieria cech i obsługa
Ta strona obejmuje funkcje inżynierii i obsługi funkcji dla obszarów roboczych, które są włączone dla wykazu aparatu Unity. Jeśli obszar roboczy nie jest włączony dla wykazu aparatu Unity, zobacz Magazyn funkcji obszaru roboczego (starsza wersja).
Dlaczego warto używać usługi Databricks jako magazynu funkcji?
Dzięki platformie analizy danych usługi Databricks cały przepływ pracy trenowania modelu odbywa się na jednej platformie:
- Potoki danych, które pozyskiwają nieprzetworzone dane, tworzą tabele funkcji, trenują modele i wykonują wnioskowanie wsadowe. Podczas trenowania i rejestrowania modelu przy użyciu inżynierii cech w wykazie aparatu Unity model jest spakowany z metadanymi funkcji. Gdy używasz modelu do oceniania wsadowego lub wnioskowania online, automatycznie pobiera wartości funkcji. Obiekt wywołujący nie musi wiedzieć o nich ani uwzględniać logiki, aby wyszukać lub dołączyć funkcje w celu oceny nowych danych.
- Model i funkcja obsługujące punkty końcowe, które są dostępne za pomocą jednego kliknięcia i które zapewniają milisekundy opóźnienia.
- Monitorowanie danych i modeli.
Ponadto platforma udostępnia następujące elementy:
- Odnajdywanie funkcji. Funkcje można przeglądać i wyszukiwać w interfejsie użytkownika usługi Databricks.
- Ład. Tabele funkcji, funkcje i modele są zarządzane przez wykaz aparatu Unity. Podczas trenowania modelu dziedziczy on uprawnienia z danych, na których został wytrenowany.
- Rodowód. Podczas tworzenia tabeli funkcji w usłudze Azure Databricks źródła danych używane do tworzenia tabeli funkcji są zapisywane i dostępne. Dla każdej funkcji w tabeli funkcji można również uzyskać dostęp do modeli, notesów, zadań i punktów końcowych korzystających z tej funkcji.
- Dostęp między obszarami roboczymi. Tabele funkcji, funkcje i modele są automatycznie dostępne w dowolnym obszarze roboczym, który ma dostęp do wykazu.
Wymagania
- Obszar roboczy musi być włączony dla wykazu aparatu Unity.
- Inżynieria funkcji w wykazie aparatu Unity wymaga środowiska Databricks Runtime 13.3 LTS lub nowszego.
Jeśli obszar roboczy nie spełnia tych wymagań, zobacz Magazyn funkcji obszaru roboczego (starsza wersja), aby dowiedzieć się, jak korzystać z magazynu funkcji obszaru roboczego.
Jak działa inżynieria cech w usłudze Databricks?
Typowy przepływ pracy uczenia maszynowego korzystający z inżynierii funkcji w usłudze Databricks jest następujący:
- Napisz kod, aby przekonwertować nieprzetworzone dane na funkcje i utworzyć ramkę danych platformy Spark zawierającą żądane funkcje.
- Utwórz tabelę delty w wykazie aparatu Unity. Każda tabela delty z kluczem podstawowym jest automatycznie tabelą funkcji.
- Trenowanie i rejestrowanie modelu przy użyciu tabeli funkcji. Gdy to zrobisz, model przechowuje specyfikacje funkcji używanych do trenowania. Gdy model jest używany do wnioskowania, automatycznie łączy funkcje z odpowiednich tabel funkcji.
- Rejestrowanie modelu w rejestrze modeli.
Teraz możesz użyć modelu do przewidywania nowych danych. W przypadku przypadków użycia wsadowego model automatycznie pobiera funkcje, których potrzebuje ze sklepu Feature Store.
W przypadku przypadków użycia obsługujących dane w czasie rzeczywistym opublikuj funkcje w tabeli online. Obsługiwane są również sklepy online innych firm. Zobacz Sklepy online innych firm.
W czasie wnioskowania model odczytuje wstępnie obliczone funkcje ze sklepu online i dołącza je do danych podanych w żądaniu klienta do punktu końcowego obsługującego model.
Rozpoczynanie korzystania z inżynierii cech — przykładowe notesy
Aby rozpocząć, wypróbuj te przykładowe notesy. W podstawowym notesie opisano sposób tworzenia tabeli funkcji, używania jej do trenowania modelu, a następnie wykonywania oceniania wsadowego przy użyciu automatycznego wyszukiwania funkcji. Zawiera on również wprowadzenie do interfejsu użytkownika inżynierii funkcji i pokazuje, jak można go używać do wyszukiwania funkcji i zrozumienia sposobu tworzenia i używania funkcji.
Przykładowy notes podstawowej inżynierii funkcji w wykazie aparatu Unity
Przykładowy notes taksówki ilustruje proces tworzenia funkcji, aktualizowania ich i używania ich do trenowania modelu i wnioskowania wsadowego.
Przykładowa inżynieria funkcji w wykazie aparatu Unity — przykładowy notes
Obsługiwane typy danych:
Inżynieria funkcji w katalogu aparatu Unity i magazynie funkcji obszaru roboczego obsługują następujące typy danych PySpark:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType
[1]DecimalType
[1]MapType
[1]StructType
[2]
[1] BinaryType
, DecimalType
i MapType
są obsługiwane we wszystkich wersjach inżynierii funkcji w katalogu aparatu Unity i w magazynie funkcji obszaru roboczego w wersji 0.3.5 lub nowszej.
[2] StructType
jest obsługiwany w inżynierii funkcji w wersji 0.6.0 lub nowszej.
Typy danych wymienione powyżej obsługują typy funkcji, które są wspólne w aplikacjach uczenia maszynowego. Na przykład:
- Można przechowywać gęste wektory, tensory i osadzanie jako
ArrayType
. - Można przechowywać rozrzedzonych wektorów, tensorów i osadzania jako
MapType
. - Tekst można przechowywać jako
StringType
.
Po opublikowaniu ArrayType
w sklepach online funkcje są MapType
przechowywane w formacie JSON.
Interfejs użytkownika magazynu funkcji wyświetla metadane dotyczące typów danych funkcji:
Więcej informacji
Aby uzyskać więcej informacji na temat najlepszych rozwiązań, pobierz kompleksowy przewodnik po sklepach funkcji.