De fase bedrijfskennis van de levenscyclus van het team Datawetenschap proces
In dit artikel worden de doelen, taken en producten beschreven die zijn gekoppeld aan de bedrijfskennissfase van het TDSP (Team Datawetenschap Process). Dit proces biedt een aanbevolen levenscyclus die uw team kan gebruiken om uw data science-projecten te structuren. De levenscyclus bevat een overzicht van de belangrijkste fasen die uw team uitvoert, vaak iteratief:
- Bedrijfskennis
- Gegevens ophalen en begrijpen
- Modelleren
- Implementatie
- Klantacceptatie
Hier volgt een visuele weergave van de TDSP-levenscyclus:
Doelstellingen
De doelstellingen van de fase bedrijfskennis zijn:
Geef de sleutelvariabelen op die fungeren als de modeldoelen. En geef de metrische gegevens van de doelen op, waarmee het succes van het project wordt bepaald.
Identificeer de relevante gegevensbronnen waartoe het bedrijf toegang heeft of moet verkrijgen.
De taken voltooien
De fase bedrijfskennis heeft twee hoofdtaken:
Doelstellingen definiëren: werk samen met uw klant en andere belanghebbenden om de zakelijke problemen te begrijpen en te identificeren. Formuleer vragen die de bedrijfsdoelen definiëren waarop de data science-technieken zich kunnen richten.
Identificeer gegevensbronnen: zoek de relevante gegevens waarmee u de vragen kunt beantwoorden die de doelstellingen van het project definiëren.
Doelstellingen definiëren
Een centraal doel van deze fase is het identificeren van de belangrijkste bedrijfsvariabelen die de analyse moet voorspellen. Deze variabelen worden de modeldoelen genoemd en de metrische gegevens die eraan zijn gekoppeld, worden gebruikt om het succes van het project te bepalen. Een doel kan bijvoorbeeld een verkoopprognose zijn of de kans dat een order frauduleus is.
Om de projectdoelen te definiëren, stelt en verfijnt u scherpe vragen die relevant, specifiek en ondubbelzinnig zijn. Data science is een proces dat gebruikmaakt van namen en getallen om dergelijke vragen te beantwoorden. Doorgaans gebruikt u data science of machine learning om vijf typen vragen te beantwoorden:
- Hoeveel of hoeveel? (regressie)
- Welke categorie? (classificatie)
- Welke groep? (clustering)
- Is dit ongebruikelijk? (anomaliedetectie)
- Welke optie moet worden genomen? (aanbeveling)
Bepaal welke van deze vragen u moet stellen en hoe u deze kunt beantwoorden om uw bedrijfsdoelen te bereiken.
Als u het projectteam wilt definiëren, geeft u de rollen en verantwoordelijkheden van de leden op. Ontwikkel een mijlpaalplan op hoog niveau waarmee u doorloop naarmate u meer informatie ontdekt.
U moet de metrische succesgegevens definiëren. U kunt bijvoorbeeld voldoen aan een voorspelling van het klantverloop met een nauwkeurigheidspercentage van x procent aan het einde van een project van drie maanden. Met deze gegevens kunt u klantpromoties aanbieden om het verloop te verminderen. De metrische gegevens moeten SLIM zijn:
- Specifiek
- Measurable
- Eenchievable
- Relevant
- Time-bound
Gegevensbronnen identificeren
Identificeer gegevensbronnen die bekende voorbeelden van antwoorden op uw vragen bevatten. Zoek naar de volgende gegevens:
- Gegevens die relevant zijn voor de vraag. Hebt u metingen van het doel en de functies die zijn gerelateerd aan het doel?
- Gegevens die een nauwkeurige meting zijn van uw modeldoel en de functies van belang.
Een bestaand systeem heeft bijvoorbeeld mogelijk niet de gegevens die nodig zijn om een probleem op te lossen en een projectdoel te bereiken. In deze situatie moet u mogelijk externe gegevensbronnen vinden of uw systemen bijwerken om nieuwe gegevens te verzamelen.
Integreren met MLflow
Voor de fase bedrijfsbegrip gebruikt uw team geen MLflow-hulpprogramma's, maar het kan indirect profiteren van de documentatie en mogelijkheden voor het bijhouden van experimenten van MLflow. Deze functies kunnen inzichten en historische context bieden om het project af te stemmen op bedrijfsdoelstellingen.
Artifacts
In deze fase levert uw team het volgende:
Een charterdocument. Het charterdocument is een levend document. U werkt het document in het hele project bij wanneer u nieuwe ontdekkingen aanbrengt en naarmate de bedrijfsvereisten veranderen. De sleutel is om dit document te herhalen. Voeg meer details toe terwijl u door het detectieproces gaat. Informeer de klant en andere belanghebbenden over de wijzigingen en de redenen hiervoor.
Gegevensbronnen. U kunt Azure Machine Learning gebruiken om gegevensbronbeheer af te handelen. We raden deze Azure-service aan voor actieve en vooral grote projecten, omdat deze is geïntegreerd met MLflow.
Gegevenswoordenlijsten. Dit document bevat beschrijvingen van de gegevens die de client levert. Deze beschrijvingen bevatten informatie over het schema (de gegevenstypen en informatie over de validatieregels, indien aanwezig) en de entiteitsrelatiediagrammen, indien beschikbaar. Uw team moet een of meer van deze informatie documenteren.
Literatuur die door peers is beoordeeld
Onderzoekers publiceren studies over de TDSP in peer-review literatuur. De bronvermeldingen bieden een mogelijkheid om andere toepassingen of vergelijkbare ideeën te onderzoeken met de TDSP, inclusief de levenscyclusfase voor bedrijfskennis.
Medewerkers
Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.
Hoofdauteur:
- Mark Tabladillo | Senior Cloud Solution Architect
Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.
Verwante resources
In deze artikelen worden de andere fasen van de TDSP-levenscyclus beschreven: