Rozhraní PYTHON API pro přípravu funkcí a pracovní prostor
Tato stránka obsahuje odkazy na dokumentaci k rozhraní Python API pro přípravu funkcí Databricks a starší verzi úložiště funkcí Databricks a informace o balíčcích klienta databricks-feature-engineering
a databricks-feature-store
.
Poznámka:
Od verze 0.17.0 databricks-feature-store
se už nepoužívá. Všechny existující moduly z tohoto balíčku jsou nyní k dispozici ve databricks-feature-engineering
verzi 0.2.0 a novější. Informace o migraci do databricks-feature-engineering
části Migrace na databricks-feature-engineering.
Matice kompatibility
Balíček a klient, který byste měli použít, závisí na tom, kde se nacházejí tabulky funkcí a jakou verzi Databricks Runtime ML používáte, jak je znázorněno v následující tabulce.
Informace o verzi balíčku, která je integrovaná ve vaší verzi Databricks Runtime ML, najdete v matici kompatibility přípravy funkcí.
Verze modulu Databricks Runtime | Tabulky funkcí v | Použití balíčku | Použití klienta Pythonu |
---|---|---|---|
Databricks Runtime 14.3 ML a novější | Katalog Unity | databricks-feature-engineering |
FeatureEngineeringClient |
Databricks Runtime 14.3 ML a novější | Pracovní prostor | databricks-feature-engineering |
FeatureStoreClient |
Databricks Runtime 14.2 ML a níže | Katalog Unity | databricks-feature-engineering |
FeatureEngineeringClient |
Databricks Runtime 14.2 ML a níže | Pracovní prostor | databricks-feature-store |
FeatureStoreClient |
Poznámka:
-
databricks-feature-engineering<=0.7.0
není kompatibilní smlflow>=2.18.0
. Pokud chcete používatdatabricks-feature-engineering
s MLflow 2.18.0 a novějším, upgradujte nadatabricks-feature-engineering
verze 0.8.0 nebo novější.
Poznámky k verzi
Přečtěte si poznámky k verzi pro přípravu funkcí Databricks a starší verzi úložiště funkcí pracovního prostoru.
Referenční informace k rozhraní PYTHON API pro přípravu funkcí
Viz referenční informace k rozhraní API Pythonu pro přípravu funkcí.
Referenční informace k rozhraní Python API úložiště funkcí pracovního prostoru (zastaralé)
Poznámka:
- Od verze 0.17.0
databricks-feature-store
se už nepoužívá. Všechny existující moduly z tohoto balíčku jsou nyní k dispozici vedatabricks-feature-engineering
verzi 0.2.0 a novější.
Informace databricks-feature-store
o rozhraní API úložiště funkcí v0.17.0 najdete v referenčních informacích kFeatureStoreClient
Databricks.
V případě verze 0.16.3 a níže použijte odkazy v tabulce ke stažení nebo zobrazení referenčních informací k rozhraní Python API úložiště funkcí. Pokud chcete zjistit předinstalovanou verzi databricks Runtime ML, podívejte se na matici kompatibility.
Verze | Stáhnout PDF | Referenční informace k online rozhraní API |
---|---|---|
v0.3.5 až v0.16.3 | Referenční informace k rozhraní PYTHON API pro úložiště funkcí 0.16.3 | Referenční informace k online rozhraní API |
v0.3.5 a novější | Referenční informace k rozhraní PYTHON API 0.3.5 pro úložiště funkcí | Referenční informace k online rozhraní API nejsou k dispozici |
Balíček Pythonu
Tato část popisuje, jak nainstalovat balíčky Pythonu pro použití funkce Databricks Feature Engineering a Databricks Workspace Feature Store.
Příprava atributů
Poznámka:
- Od verze 0.2.0
databricks-feature-engineering
obsahuje moduly pro práci s tabulkami funkcí v katalogu Unity i úložišti funkcí pracovního prostoru.databricks-feature-engineering
nižší verze 0.2.0 funguje pouze s tabulkami funkcí v katalogu Unity.
Rozhraní API pro přípravu funkcí Databricks jsou k dispozici prostřednictvím klientského balíčku databricks-feature-engineering
Pythonu. Klient je k dispozici v PyPI a je předinstalovaný v Databricks Runtime 13.3 LTS ML a vyšší.
Referenční informace o tom, která verze klienta odpovídá verzi modulu runtime, najdete v matici kompatibility.
Instalace klienta v Databricks Runtime:
%pip install databricks-feature-engineering
Instalace klienta v místním prostředí Pythonu:
pip install databricks-feature-engineering
Úložiště funkcí pracovního prostoru (zastaralé)
Poznámka:
- Od verze 0.17.0
databricks-feature-store
se už nepoužívá. Všechny existující moduly z tohoto balíčku jsou nyní k dispozici vedatabricks-feature-engineering
verzi 0.2.0 a novější. - Další informace najdete v tématu Migrace na databricks-feature-engineering .
Rozhraní API úložiště funkcí Databricks jsou k dispozici prostřednictvím klientského balíčku databricks-feature-store
Pythonu. Klient je k dispozici v PyPI a je předinstalovaný v Databricks Runtime pro Machine Learning. Referenční informace o tom, který modul runtime obsahuje verzi klienta, najdete v matici kompatibility.
Instalace klienta v Databricks Runtime:
%pip install databricks-feature-store
Instalace klienta v místním prostředí Pythonu:
pip install databricks-feature-store
Migrace na databricks-feature-engineering
Chcete-li nainstalovat databricks-feature-engineering
balíček, použijte pip install databricks-feature-engineering
místo pip install databricks-feature-store
. Všechny moduly byly databricks-feature-store
přesunuty do databricks-feature-engineering
, takže nemusíte měnit žádný kód. Příkazy importu, jako from databricks.feature_store import FeatureStoreClient
jsou po instalaci databricks-feature-engineering
, budou fungovat i nadále .
Pokud chcete pracovat s tabulkami funkcí v katalogu Unity, použijte FeatureEngineeringClient
. Chcete-li použít úložiště funkcí pracovního prostoru, musíte použít FeatureStoreClient
.
Podporované scénáře
V Databricks, včetně Databricks Runtime a Databricks Runtime pro Machine Learning, můžete:
- Vytváření, čtení a zápis tabulek funkcí
- Trénování a hodnocení modelů u dat funkcí
- Publikování tabulek funkcí do online obchodů pro obsluhu v reálném čase
Z místního prostředí nebo prostředí mimo Databricks můžete:
- Vyvíjejte kód s místní podporou integrovaného vývojového prostředí (IDE).
- Testování jednotek pomocí napodobených architektur
- Zápis integračních testů, které se mají spouštět v Databricks
Omezení
Klientskou knihovnu je možné spustit jenom v Databricks, včetně Databricks Runtime a Databricks Runtime pro Machine Learning. Nepodporuje volání funkce Engineering v katalogu Unity nebo rozhraní API úložiště funkcí z místního prostředí nebo z jiného prostředí než Databricks.
Použití klientů pro testování jednotek
Místně můžete nainstalovat klienta katalogu Unity nebo klienta úložiště funkcí, který vám pomůže se spouštěním testů jednotek.
Pokud chcete například ověřit, že metoda update_customer_features
správně volá FeatureEngineeringClient.write_table
(nebo pro úložiště funkcí pracovního prostoru), FeatureStoreClient.write_table
můžete napsat:
from unittest.mock import MagicMock, patch
from my_feature_update_module import update_customer_features
from databricks.feature_engineering import FeatureEngineeringClient
@patch.object(FeatureEngineeringClient, "write_table")
@patch("my_feature_update_module.compute_customer_features")
def test_something(compute_customer_features, mock_write_table):
customer_features_df = MagicMock()
compute_customer_features.return_value = customer_features_df
update_customer_features() # Function being tested
mock_write_table.assert_called_once_with(
name='ml.recommender_system.customer_features',
df=customer_features_df,
mode='merge'
)
Použití klientů pro testování integrace
Integrační testy můžete spouštět pomocí přípravy funkcí v klientovi katalogu Unity nebo klienta úložiště funkcí v Databricks. Podrobnosti najdete v tématu Vývojářské nástroje a pokyny: Použití CI/CD.