Sdílet prostřednictvím


Principy entit nejvyšší úrovně v spravované uložiště funkcí

Tento dokument popisuje entity nejvyšší úrovně v spravované uložiště funkcí.

Diagram znázorňující hlavní součásti spravované uložiště funkcí

Další informace o spravované uložiště funkcí najdete v prostředku Co je spravované uložiště funkcí?

Úložiště funkcí

Sady funkcí můžete vytvářet a spravovat prostřednictvím úložiště funkcí. Sada funkcí je kolekce funkcí. Volitelně můžete přidružit materializační úložiště (připojení offline úložiště) k úložišti funkcí, aby bylo možné předkomputovat a trvale zachovat funkce. Díky tomuto přístupu může být načítání funkcí během trénování nebo odvozování rychlejší a spolehlivější.

Další informace o konfiguraci najdete v úložišti prostředků schématu YAML v rozhraní příkazového řádku (v2).

Entity

Entita zapouzdřuje sloupce indexu pro logické entity v podniku. Mezi příklady entit patří entita účtu, entita zákazníka atd. Entity pomáhají vynutit použití stejných definic sloupců indexu v sadách funkcí, které používají stejné logické entity.

Entity se obvykle vytvářejí jednou a pak se znovu používají napříč sadami funkcí. Entity jsou verze.

Další informace o konfiguraci najdete v prostředku schématu YAML entity entity CLI (v2).

Specifikace sady funkcí a prostředek

Sada funkcí je kolekce funkcí vygenerovaných aplikací transformace zdrojových systémových dat. Sady funkcí zapouzdřují zdroj, transformační funkci a nastavení materializace. V současné době podporujeme transformační kód funkcí PySpark.

Nejprve vytvořte specifikaci sady funkcí. Specifikace sady funkcí je samostatná definice sady funkcí, kterou můžete místně vyvíjet a testovat.

Specifikace sady funkcí se obvykle skládá z těchto parametrů:

  • source: Na jaké zdroje se tato funkce mapuje.
  • transformation (volitelné): Logika transformace použitá na zdrojová data k vytvoření funkcí. V našem případě jako podporovaný výpočetní výkon používáme Spark.
  • Názvysloupcůch index_columns timestamp_column
  • materialization_settings(volitelné): Vyžaduje se, pokud chcete hodnoty funkcí ukládat do mezipaměti v úložišti materializace pro efektivní načítání.

Po vývoji a otestování specifikace sady funkcí v místním/vývojovém prostředí můžete tuto specifikaci zaregistrovat jako prostředek sady funkcí v úložišti funkcí. Prostředek sady funkcí poskytuje spravované funkce, například správu verzí a materializaci.

Další informace o specifikaci YAML sady funkcí najdete v prostředku schématu YAML specifikace sady funkcí CLI (v2).

Specifikace načítání funkcí

Specifikace načtení funkce je přenosná definice seznamu funkcí, která je přidružená k modelu. Může pomoct zjednodušit vývoj a operacionalizaci modelů strojového učení. Specifikace načítání funkcí je obvykle vstupem do trénovacího kanálu. Pomáhá generovat trénovací data. Můžete ho zabalit pomocí modelu. Kromě toho ho krok odvozování používá k vyhledání funkcí. Integruje všechny fáze životního cyklu strojového učení. Při experimentování a nasazování je možné minimalizovat změny kanálu trénování a odvozování.

Použití specifikace načtení funkce a integrované součásti načítání funkcí jsou volitelné. Pokud chcete, můžete rozhraní API přímo použít get_offline_features() .

Další informace o specifikaci YAML pro načítání funkcí najdete v prostředku schématu YAML specifikace načítání funkcí CLI (v2).

Další kroky