Functie-engineering en -bediening
Op deze pagina worden functie-engineering- en servicemogelijkheden beschreven voor werkruimten die zijn ingeschakeld voor Unity Catalog. Als uw werkruimte niet is ingeschakeld voor Unity Catalog, zie Werkruimte Feature Store (verouderd).
Waarom Databricks gebruiken als uw functiearchief?
Met het Databricks Data Intelligence Platform vindt de volledige werkstroom voor modeltraining plaats op één platform:
- Gegevenspijplijnen die onbewerkte gegevens opnemen, functietabellen maken, modellen trainen en batchdeductie uitvoeren. Wanneer u een model traint en aanmeldt met behulp van functie-engineering in Unity Catalog, wordt het model verpakt met functiemetagegevens. Wanneer u het model gebruikt voor batchgewijs scoren of onlinedeductie, worden functiewaarden automatisch opgehaald. De beller hoeft deze niet te kennen of logica op te nemen om functies op te zoeken of eraan deel te nemen om nieuwe gegevens te scoren.
- Model en functie voor eindpunten die beschikbaar zijn met één klik en die milliseconden van latentie bieden.
- Bewaking van gegevens en modellen.
Daarnaast biedt het platform het volgende:
- Functiedetectie. U kunt bladeren en zoeken naar functies in de Databricks-gebruikersinterface.
- Governance. Functietabellen, functies en modellen worden allemaal beheerd door Unity Catalog. Wanneer u een model traint, neemt het machtigingen over van de gegevens waarop het is getraind.
- Afstamming. Wanneer u een functietabel maakt in Azure Databricks, worden de gegevensbronnen die worden gebruikt om de functietabel te maken, opgeslagen en toegankelijk. Voor elke functie in een functietabel hebt u ook toegang tot de modellen, notebooks, taken en eindpunten die gebruikmaken van de functie.
- Toegang tussen werkruimten. Functietabellen, functies en modellen zijn automatisch beschikbaar in elke werkruimte die toegang heeft tot de catalogus.
Vereisten
- Uw werkruimte moet zijn ingeschakeld voor Unity Catalog.
- Voor functie-engineering in Unity Catalog is Databricks Runtime 13.3 LTS of hoger vereist.
Als uw werkruimte niet aan deze vereisten voldoet, kunt u Werkruimte Feature Store (verouderd) raadplegen voor instructies over het gebruik van de verouderde Werkruimte Feature Store.
Hoe werkt functie-engineering in Databricks?
De typische machine learning-werkstroom met behulp van functie-engineering in Databricks volgt dit pad:
- Schrijf code om onbewerkte gegevens te converteren naar functies en maak een Spark DataFrame met de gewenste functies.
- Maak een Delta-tabel in Unity Catalog. Elke Delta-tabel met een primaire sleutel is automatisch een functietabel.
- Train en registreer een model met behulp van de functietabel. Wanneer u dit doet, slaat het model de specificaties op van functies die worden gebruikt voor training. Wanneer het model wordt gebruikt voor deductie, worden functies uit de juiste functietabellen automatisch samengevoegd.
- Model registreren in modelregister.
U kunt nu het model gebruiken om voorspellingen te doen over nieuwe gegevens. Voor batchgebruiksscenario's haalt het model automatisch de functies op die het nodig heeft uit de Feature Store.
Voor realtime gebruiksvoorbeelden publiceert u de functies naar een onlinetabel. Online winkels van derden worden ook ondersteund. Zie online winkels van derden.
Tijdens deductie leest het model vooraf berekende functies uit de online winkel en voegt het deze samen met de gegevens die zijn opgegeven in de clientaanvraag naar het model dat het eindpunt levert.
Functie-engineering gaan gebruiken , voorbeeldnotitieblokken
Probeer deze voorbeeldnotitieblokken om aan de slag te gaan. Het basisnotitieblok begeleidt u bij het maken van een functietabel, het gebruiken om een model te trainen en vervolgens batchgewijs scoren uit te voeren met behulp van automatisch zoeken naar functies. Daarnaast maakt u kennis met de gebruikersinterface van Feature Engineering en leert u hoe u deze kunt gebruiken om functies te zoeken en te begrijpen hoe functies worden gemaakt en gebruikt.
Basic Feature Engineering in Unity Catalog-voorbeeldnotitieblok
Het voorbeeldnotitieblok voor taxi's illustreert het proces van het maken van functies, het bijwerken ervan en het gebruik ervan voor modeltraining en batchdeductie.
Voorbeeldnotitieblok voor functie-engineering in Unity Catalog
Ondersteunde gegevenstypen
Functie-engineering in Unity Catalog en functieopslag van een oude werkruimte ondersteunt de volgende PySpark-gegevenstypen:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
-
BinaryType
[1] -
DecimalType
[1] -
MapType
[1] -
StructType
[2]
[1] BinaryType
, DecimalType
en MapType
worden ondersteund in alle versies van Feature Engineering in Unity Catalog en in Workspace Feature Store v0.3.5 of hoger.
[2] StructType
wordt ondersteund in Feature Engineering v0.6.0 of hoger.
De bovenstaande gegevenstypen ondersteunen functietypen die gebruikelijk zijn in machine learning-toepassingen. Voorbeeld:
- U kunt dichte vectoren, tensors en insluitingen opslaan als
ArrayType
. - U kunt sparse vectoren, tensors en insluitingen opslaan als
MapType
. - U kunt tekst opslaan als
StringType
.
Wanneer ze worden gepubliceerd naar online winkels ArrayType
en MapType
functies worden opgeslagen in JSON-indeling.
In de gebruikersinterface van het functiearchief worden metagegevens weergegeven voor functiegegevenstypen:
Meer informatie
Download de uitgebreide handleiding voor feature stores voor meer informatie over aanbevolen procedures.