Udostępnij za pośrednictwem


Inżynieria cech i obsługa

Ta strona obejmuje funkcje inżynierii i obsługi funkcji dla obszarów roboczych, które są włączone dla wykazu aparatu Unity. Jeśli obszar roboczy nie jest włączony do Unity Catalogu, zobacz Workspace Feature Store (starsza wersja).

Dlaczego warto używać usługi Databricks jako magazynu funkcji?

Dzięki platformie analizy danych usługi Databricks cały przepływ pracy trenowania modelu odbywa się na jednej platformie:

  • Potoki danych, które pozyskiwają nieprzetworzone dane, tworzą tabele funkcji, trenują modele i wykonują wnioskowanie wsadowe. Podczas trenowania i rejestrowania modelu przy użyciu inżynierii cech w wykazie aparatu Unity model jest spakowany z metadanymi funkcji. Gdy używasz modelu do oceniania wsadowego lub wnioskowania online, automatycznie pobiera wartości funkcji. Obiekt wywołujący nie musi wiedzieć o nich ani uwzględniać logiki, aby wyszukać lub dołączyć funkcje w celu oceny nowych danych.
  • Model i funkcja obsługujące punkty końcowe, które są dostępne za pomocą jednego kliknięcia i które zapewniają milisekundy opóźnienia.
  • Monitorowanie danych i modeli.

Ponadto platforma udostępnia następujące elementy:

  • Odnajdywanie funkcji. Funkcje można przeglądać i wyszukiwać w interfejsie użytkownika usługi Databricks.
  • Ład. Tabele funkcji, funkcje i modele są zarządzane przez wykaz aparatu Unity. Podczas trenowania modelu dziedziczy on uprawnienia z danych, na których został wytrenowany.
  • Rodowód. Podczas tworzenia tabeli funkcji w usłudze Azure Databricks źródła danych używane do tworzenia tabeli funkcji są zapisywane i dostępne. Dla każdej funkcji w tabeli funkcji można również uzyskać dostęp do modeli, notesów, zadań i punktów końcowych korzystających z tej funkcji.
  • Dostęp między obszarami roboczymi. Tabele funkcji, funkcje i modele są automatycznie dostępne w dowolnym obszarze roboczym, który ma dostęp do wykazu.

Wymagania

  • Obszar roboczy musi być włączony dla wykazu aparatu Unity.
  • Inżynieria funkcji w wykazie aparatu Unity wymaga środowiska Databricks Runtime 13.3 LTS lub nowszego.

Jeśli obszar roboczy nie spełnia tych wymagań, zobacz Workspace Feature Store (starsza wersja), aby dowiedzieć się, jak korzystać ze starszego magazynu funkcji obszaru roboczego.

Jak działa inżynieria cech w usłudze Databricks?

Typowy przepływ pracy uczenia maszynowego korzystający z inżynierii funkcji w usłudze Databricks jest następujący:

  1. Napisz kod, aby przekonwertować nieprzetworzone dane na funkcje i utworzyć ramkę danych platformy Spark zawierającą żądane funkcje.
  2. Utwórz tabelę delty w wykazie aparatu Unity. Każda tabela delty z kluczem podstawowym jest automatycznie tabelą funkcji.
  3. Trenowanie i rejestrowanie modelu przy użyciu tabeli funkcji. Gdy to zrobisz, model przechowuje specyfikacje funkcji używanych do trenowania. Gdy model jest używany do wnioskowania, automatycznie łączy funkcje z odpowiednich tabel funkcji.
  4. Rejestrowanie modelu w rejestrze modeli.

Teraz możesz użyć modelu do przewidywania nowych danych. W przypadku przypadków użycia wsadowego model automatycznie pobiera funkcje, których potrzebuje ze sklepu Feature Store.

Przepływ pracy magazynu funkcji dla przypadków użycia uczenia maszynowego wsadowego.

W przypadku przypadków użycia obsługujących dane w czasie rzeczywistym opublikuj funkcje w tabeli online. Obsługiwane są również sklepy online innych firm. Zobacz Sklepy online innych firm.

W czasie wnioskowania model odczytuje wstępnie obliczone funkcje ze sklepu online i dołącza je do danych podanych w żądaniu klienta do punktu końcowego obsługującego model.

Przepływ magazynu funkcji dla obsługiwanych modeli uczenia maszynowego.

Rozpoczynanie korzystania z inżynierii cech — przykładowe notesy

Aby rozpocząć, wypróbuj te przykładowe notesy. W podstawowym notesie opisano sposób tworzenia tabeli funkcji, używania jej do trenowania modelu, a następnie wykonywania oceniania wsadowego przy użyciu automatycznego wyszukiwania funkcji. Zawiera on również wprowadzenie do interfejsu użytkownika inżynierii funkcji i pokazuje, jak można go używać do wyszukiwania funkcji i zrozumienia sposobu tworzenia i używania funkcji.

Przykładowy notes podstawowej inżynierii funkcji w wykazie aparatu Unity

Pobierz notes

Przykładowy notes taksówki ilustruje proces tworzenia funkcji, aktualizowania ich i używania ich do trenowania modelu i wnioskowania wsadowego.

Przykładowa inżynieria funkcji w wykazie aparatu Unity — przykładowy notes

Pobierz notes

Obsługiwane typy danych:

Inżynieria funkcji w wykazie aparatu Unity i starszym magazynie funkcji obszaru roboczego obsługują następujące typy danych PySpark:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalTypei MapType są obsługiwane we wszystkich wersjach inżynierii funkcji w katalogu aparatu Unity i w magazynie funkcji obszaru roboczego w wersji 0.3.5 lub nowszej. [2] StructType jest obsługiwany w inżynierii funkcji w wersji 0.6.0 lub nowszej.

Typy danych wymienione powyżej obsługują typy funkcji, które są wspólne w aplikacjach uczenia maszynowego. Na przykład:

  • Można przechowywać gęste wektory, tensory i osadzanie jako ArrayType.
  • Można przechowywać rozrzedzonych wektorów, tensorów i osadzania jako MapType.
  • Tekst można przechowywać jako StringType.

Po opublikowaniu ArrayType w sklepach online funkcje są MapType przechowywane w formacie JSON.

Interfejs użytkownika magazynu funkcji wyświetla metadane dotyczące typów danych funkcji:

Przykład złożonych typów danych

Więcej informacji

Aby uzyskać więcej informacji na temat najlepszych rozwiązań, pobierz kompleksowy przewodnik po sklepach funkcji.