Sdílet prostřednictvím


Příprava a obsluha funkcí

Tato stránka se zabývá inženýrstvím funkcí a možnostmi poskytování pro pracovní prostory, které jsou povoleny pro Unity Catalog. Pokud váš pracovní prostor není nastavený pro Unity Catalog, podívejte se na úložiště funkcí pracovního prostoru (starší verze) .

Proč používat Databricks jako úložiště funkcí?

S platformou Databricks Data Intelligence Platform probíhá celý pracovní postup trénování modelu na jedné platformě:

  • Datové kanály, které ingestují nezpracovaná data, vytvářejí funkce tables, trénují modely a provádějí dávkové odvozování. Při tréninku a protokolování modelu pomocí zpracování vlastností v Unity Catalogje model zabalen s metadaty vlastností. Když použijete model pro dávkové vyhodnocování nebo online odvozování, automaticky načte funkci values. Volající nemusí o těchto funkcích vědět ani zahrnout logiku pro jejich vyhledání nebo join, aby mohli ohodnotit nová data.
  • Model a funkce obsluhující koncové body, které jsou dostupné jediným kliknutím a poskytují latenci v milisekundách
  • Monitorování dat a modelů

Kromě toho platforma poskytuje následující:

  • Zjišťovánífunkcích Funkce můžete procházet a vyhledávat v uživatelském rozhraní Databricks.
  • Zásady správného řízení. Funkce tables, funkce a modely jsou všechny řízeny Unity Catalog. Při trénování modelu dědí oprávnění z dat, na která byla natrénována.
  • Rodokmen. Když v Azure Databricks vytvoříte funkci table, uloží se a zpřístupní zdroje dat použité k vytvoření funkce table. Pro každou vlastnost v rámci tablemůžete také přistupovat k modelům, poznámkovým blokům, úlohám a koncovým bodům, které tuto vlastnost používají.
  • Přístup mezi pracovními prostory Funkce tablesa modely jsou automaticky dostupné v jakémkoli pracovním prostoru, který má přístup k catalog.

Požadavky

  • Váš pracovní prostor musí být povolený pro Unity Catalog.
  • Příprava funkcí v Unity Catalog vyžaduje Databricks Runtime 13.3 LTS nebo vyšší.

Pokud váš pracovní prostor tyto požadavky nesplňuje, přečtěte si téma úložiště funkcí pracovního prostoru (starší verze), jak používat starší úložiště funkcí pracovního prostoru.

Jak funguje příprava funkcí na Databricks?

Typický pracovní postup strojového učení s využitím přípravy funkcí v Databricks se řídí tímto způsobem:

  1. Napište kód pro převod nezpracovaných dat na funkce a vytvořte datový rámec Sparku obsahující požadované funkce.
  2. Vytvořit table Delta v Unity Catalog. Každá Delta table s primárním klíčem je automaticky funkcí table.
  3. Trénování a protokolování modelu pomocí funkce table. Když to uděláte, uloží model specifikace funkcí používaných pro trénování. Pokud se model používá k odvozování, automaticky spojí funkce z příslušné funkce tables.
  4. Registrace modelu v registru modelů

Model teď můžete použít k předpovědím nových dat. V případě dávkového použití model automaticky načte funkce, které potřebuje, z úložiště funkcí.

Pracovní postup úložiště funkcí pro případy použití dávkového strojového učení

Pro případy použití v reálném čase publikujte vlastnosti do online table. Podporují se také online obchody třetích stran. Podívejte se na online obchody třetích stran.

V době odvozování model čte předem vypočítané funkce z online obchodu a spojí je s daty poskytnutými v požadavku klienta na koncový bod obsluhující model.

Tok úložiště funkcí pro modely strojového učení, které se obsluhují.

Začínáme používat přípravu funkcí – ukázkové poznámkové bloky

Pokud chcete get začít, vyzkoušejte tyto ukázkové poznámkové bloky. Základní poznámkový blok vás provede postupem vytvoření funkce table, jeho použití k trénování modelu a následnému dávkovému vyhodnocování pomocí automatického vyhledávání funkcí. Seznámí vás také s uživatelským rozhraním pro přípravu funkcí a ukáže, jak ho můžete použít k vyhledávání funkcí a pochopení toho, jak se vytvářejí a používají funkce.

Základní příprava funkcí v Unity Catalog ukázkový poznámkový blok

poznámkového bloku

Ukázkový poznámkový blok taxi znázorňuje proces vytváření funkcí, jejich aktualizace a jejich použití pro trénování modelu a dávkové odvozování.

Vytvoření funkcí v Unity Catalog ukázkovém poznámkovém bloku taxi

Get poznámkový blok

Podporované datové typy

Tvorba funkcí v Unity Catalog a zastaralé úložiště funkcí pracovního prostoru podporují následující datové typy PySpark :

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalTypea MapType jsou podporované ve všech verzích přípravy funkcí v Unity Catalog a v úložišti funkcí pracovního prostoru verze 0.3.5 nebo novější. [2] StructType je podporován v sadě Feature Engineering verze 0.6.0 nebo vyšší.

Datové typy uvedené výše podporují typy funkcí, které jsou běžné v aplikacích strojového učení. Příklad:

  • Můžete ukládat zhuštěné vektory, tensory a vkládání jako ArrayType.
  • Můžete ukládat řídké vektory, tensory a vkládání jako MapType.
  • Text můžete uložit jako StringType.

Při publikování do online obchodů ArrayType a MapType funkce se ukládají ve formátu JSON.

Uživatelské rozhraní úložiště funkcí zobrazuje metadata u datových typů funkcí:

Příklad složitých datových typů

Více informací

Další informace o osvědčených postupech najdete v tématu Komplexní průvodce obchody s funkcemi.