Informatie over entiteiten op het hoogste niveau in het beheerde functiearchief
In dit document worden de entiteiten op het hoogste niveau in het beheerde functiearchief beschreven.
Ga naar de resource Wat is het beheerde functiearchief? voor meer informatie over het beheerde functiearchief.
Functiearchief
U kunt functiesets maken en beheren via een functiearchief. Een functieset is een verzameling functies. U kunt eventueel een materialisatiearchief (offline winkelverbinding) koppelen aan een functiearchief om de functies regelmatig vooraf te compileren en te behouden. Deze aanpak kan het ophalen van functies tijdens het trainen of deductie sneller en betrouwbaarder maken.
Ga naar de YAML-schemaresource van de CLI (v2) voor meer informatie over de configuratie.
Entiteiten
Een entiteit bevat de indexkolommen voor logische entiteiten in een onderneming. Voorbeelden van entiteiten zijn accountentiteit, klantentiteit, enzovoort. Entiteiten helpen bij het afdwingen van, als best practice, het gebruik van dezelfde indexkolomdefinities in de functiesets die gebruikmaken van dezelfde logische entiteiten.
Entiteiten worden doorgaans eenmaal gemaakt en vervolgens opnieuw gebruikt in verschillende functiesets. Entiteiten zijn versiebeheer.
Ga naar de YAML-schemaresource van de CLI (v2) voor meer informatie over de configuratie.
Specificatie en asset van functieset
Een functieset is een verzameling functies die worden gegenereerd door de toepassing van een transformatie op bronsysteemgegevens. Functiesets bevatten een bron, de transformatiefunctie en de materialisatie-instellingen. Momenteel ondersteunen we pySpark-functietransformatiecode.
Maak eerst een specificatie van een functieset. Een specificatie van een functieset is een zelfstandige definitie van een functieset die u lokaal kunt ontwikkelen en testen.
Een specificatie van een functieset bestaat doorgaans uit deze parameters:
source
: Aan welke bron(en) wordt deze functie toegewezentransformation
(optioneel): De transformatielogica, toegepast op de brongegevens, om functies te maken. In ons geval gebruiken we Spark als de ondersteunde rekenkracht.- Namen van de kolommen die de
index_columns
en detimestamp_column
: Deze namen zijn vereist wanneer gebruikers functiegegevens proberen samen te voegen met observatiegegevens (meer hierover later) materialization_settings
(optioneel): Vereist als u de functiewaarden in een materialisatiearchief wilt opslaan voor efficiƫnt ophalen.
Nadat u de functiesetspecificatie in uw lokale/ontwikkelomgeving hebt ontwikkeld en getest, kunt u de specificatie registreren als een functiesetasset bij het functiearchief. De functiesetasset biedt beheerde mogelijkheden, bijvoorbeeld versiebeheer en materialisatie.
Ga naar de YAML-schemaresource van de CLI (v2) voor meer informatie over de YAML-specificatie van de functieset.
Specificatie voor het ophalen van functies
Een specificatie voor het ophalen van functies is een draagbare definitie van een functielijst die is gekoppeld aan een model. Het kan helpen bij het stroomlijnen van het ontwikkelen en operationeel maken van machine learning-modellen. Een specificatie voor het ophalen van functies is doorgaans een invoer voor de trainingspijplijn. Het helpt bij het genereren van de trainingsgegevens. U kunt het inpakken met het model. Daarnaast gebruikt de deductiestap deze om de functies op te zoeken. Het integreert alle fasen van de levenscyclus van machine learning. Wijzigingen in uw trainings- en deductiepijplijn kunnen worden geminimaliseerd tijdens het experimenteren en implementeren.
Het gebruik van een specificatie voor het ophalen van functies en het ingebouwde onderdeel voor het ophalen van functies zijn optioneel. U kunt de get_offline_features()
API desgewenst rechtstreeks gebruiken.
Ga voor meer informatie over de YAML-specificatie voor het ophalen van functies naar de YAML-schemaresource van de CLI (v2).