Sdílet prostřednictvím


Rozhraní PYTHON API pro přípravu funkcí a pracovní prostor

Tato stránka obsahuje odkazy na dokumentaci k rozhraní Python API pro přípravu funkcí Databricks a starší verzi úložiště funkcí Databricks a informace o balíčcích klienta databricks-feature-engineering a databricks-feature-store.

Poznámka:

Od verze 0.17.0 databricks-feature-store se už nepoužívá. Všechny existující moduly z tohoto balíčku jsou nyní k dispozici ve databricks-feature-engineering verzi 0.2.0 a novější. Informace o migraci do databricks-feature-engineeringčásti Migrace na databricks-feature-engineering.

Matice kompatibility

Balíček a klient, který byste měli použít, závisí na tom, kde se nacházejí tabulky funkcí a jakou verzi Databricks Runtime ML používáte, jak je znázorněno v následující tabulce.

Informace o verzi balíčku, která je integrovaná ve vaší verzi Databricks Runtime ML, najdete v matici kompatibility přípravy funkcí.

Verze modulu Databricks Runtime Tabulky funkcí v Použití balíčku Použití klienta Pythonu
Databricks Runtime 14.3 ML a novější Katalog Unity databricks-feature-engineering FeatureEngineeringClient
Databricks Runtime 14.3 ML a novější Pracovní prostor databricks-feature-engineering FeatureStoreClient
Databricks Runtime 14.2 ML a níže Katalog Unity databricks-feature-engineering FeatureEngineeringClient
Databricks Runtime 14.2 ML a níže Pracovní prostor databricks-feature-store FeatureStoreClient

Poznámka:

  • databricks-feature-engineering<=0.7.0 není kompatibilní s mlflow>=2.18.0. Pokud chcete používat databricks-feature-engineering s MLflow 2.18.0 a novějším, upgradujte na databricks-feature-engineering verze 0.8.0 nebo novější.

Poznámky k verzi

Přečtěte si poznámky k verzi pro přípravu funkcí Databricks a starší verzi úložiště funkcí pracovního prostoru.

Referenční informace k rozhraní PYTHON API pro přípravu funkcí

Viz referenční informace k rozhraní API Pythonu pro přípravu funkcí.

Referenční informace k rozhraní Python API úložiště funkcí pracovního prostoru (zastaralé)

Poznámka:

  • Od verze 0.17.0 databricks-feature-store se už nepoužívá. Všechny existující moduly z tohoto balíčku jsou nyní k dispozici ve databricks-feature-engineering verzi 0.2.0 a novější.

Informace databricks-feature-store o rozhraní API úložiště funkcí v0.17.0 najdete v referenčních informacích kFeatureStoreClientDatabricks.

V případě verze 0.16.3 a níže použijte odkazy v tabulce ke stažení nebo zobrazení referenčních informací k rozhraní Python API úložiště funkcí. Pokud chcete zjistit předinstalovanou verzi databricks Runtime ML, podívejte se na matici kompatibility.

Verze Stáhnout PDF Referenční informace k online rozhraní API
v0.3.5 až v0.16.3 Referenční informace k rozhraní PYTHON API pro úložiště funkcí 0.16.3 Referenční informace k online rozhraní API
v0.3.5 a novější Referenční informace k rozhraní PYTHON API 0.3.5 pro úložiště funkcí Referenční informace k online rozhraní API nejsou k dispozici

Balíček Pythonu

Tato část popisuje, jak nainstalovat balíčky Pythonu pro použití funkce Databricks Feature Engineering a Databricks Workspace Feature Store.

Příprava atributů

Poznámka:

  • Od verze 0.2.0 databricks-feature-engineering obsahuje moduly pro práci s tabulkami funkcí v katalogu Unity i úložišti funkcí pracovního prostoru. databricks-feature-engineering nižší verze 0.2.0 funguje pouze s tabulkami funkcí v katalogu Unity.

Rozhraní API pro přípravu funkcí Databricks jsou k dispozici prostřednictvím klientského balíčku databricks-feature-engineeringPythonu. Klient je k dispozici v PyPI a je předinstalovaný v Databricks Runtime 13.3 LTS ML a vyšší.

Referenční informace o tom, která verze klienta odpovídá verzi modulu runtime, najdete v matici kompatibility.

Instalace klienta v Databricks Runtime:

%pip install databricks-feature-engineering

Instalace klienta v místním prostředí Pythonu:

pip install databricks-feature-engineering

Úložiště funkcí pracovního prostoru (zastaralé)

Poznámka:

  • Od verze 0.17.0 databricks-feature-store se už nepoužívá. Všechny existující moduly z tohoto balíčku jsou nyní k dispozici ve databricks-feature-engineeringverzi 0.2.0 a novější.
  • Další informace najdete v tématu Migrace na databricks-feature-engineering .

Rozhraní API úložiště funkcí Databricks jsou k dispozici prostřednictvím klientského balíčku databricks-feature-storePythonu. Klient je k dispozici v PyPI a je předinstalovaný v Databricks Runtime pro Machine Learning. Referenční informace o tom, který modul runtime obsahuje verzi klienta, najdete v matici kompatibility.

Instalace klienta v Databricks Runtime:

%pip install databricks-feature-store

Instalace klienta v místním prostředí Pythonu:

pip install databricks-feature-store

Migrace na databricks-feature-engineering

Chcete-li nainstalovat databricks-feature-engineering balíček, použijte pip install databricks-feature-engineering místo pip install databricks-feature-store. Všechny moduly byly databricks-feature-store přesunuty do databricks-feature-engineering, takže nemusíte měnit žádný kód. Příkazy importu, jako from databricks.feature_store import FeatureStoreClient jsou po instalaci databricks-feature-engineering, budou fungovat i nadále .

Pokud chcete pracovat s tabulkami funkcí v katalogu Unity, použijte FeatureEngineeringClient. Chcete-li použít úložiště funkcí pracovního prostoru, musíte použít FeatureStoreClient.

Podporované scénáře

V Databricks, včetně Databricks Runtime a Databricks Runtime pro Machine Learning, můžete:

  • Vytváření, čtení a zápis tabulek funkcí
  • Trénování a hodnocení modelů u dat funkcí
  • Publikování tabulek funkcí do online obchodů pro obsluhu v reálném čase

Z místního prostředí nebo prostředí mimo Databricks můžete:

  • Vyvíjejte kód s místní podporou integrovaného vývojového prostředí (IDE).
  • Testování jednotek pomocí napodobených architektur
  • Zápis integračních testů, které se mají spouštět v Databricks

Omezení

Klientskou knihovnu je možné spustit jenom v Databricks, včetně Databricks Runtime a Databricks Runtime pro Machine Learning. Nepodporuje volání funkce Engineering v katalogu Unity nebo rozhraní API úložiště funkcí z místního prostředí nebo z jiného prostředí než Databricks.

Použití klientů pro testování jednotek

Místně můžete nainstalovat klienta katalogu Unity nebo klienta úložiště funkcí, který vám pomůže se spouštěním testů jednotek.

Pokud chcete například ověřit, že metoda update_customer_features správně volá FeatureEngineeringClient.write_table (nebo pro úložiště funkcí pracovního prostoru), FeatureStoreClient.write_tablemůžete napsat:

from unittest.mock import MagicMock, patch

from my_feature_update_module import update_customer_features
from databricks.feature_engineering import FeatureEngineeringClient

@patch.object(FeatureEngineeringClient, "write_table")
@patch("my_feature_update_module.compute_customer_features")
def test_something(compute_customer_features, mock_write_table):
  customer_features_df = MagicMock()
  compute_customer_features.return_value = customer_features_df

  update_customer_features()  # Function being tested

  mock_write_table.assert_called_once_with(
    name='ml.recommender_system.customer_features',
    df=customer_features_df,
    mode='merge'
  )

Použití klientů pro testování integrace

Integrační testy můžete spouštět pomocí přípravy funkcí v klientovi katalogu Unity nebo klienta úložiště funkcí v Databricks. Podrobnosti najdete v tématu Vývojářské nástroje a pokyny: Použití CI/CD.