Datainsamlings- och förståelsefasen i livscykeln för Team Datavetenskap Process
Den här artikeln beskriver de mål, uppgifter och slutprodukter som är associerade med fasen för datainsamling och förståelse i TDSP (Team Datavetenskap Process). Den här processen ger en rekommenderad livscykel som ditt team kan använda för att strukturera dina datavetenskapsprojekt. Livscykeln beskriver de viktigaste stegen som ditt team utför, ofta iterativt:
- Affärsförstelse
- Datainsamling och förståelse
- Modellering
- Distribution
- Kundgodkännande
Här är en visuell representation av TDSP-livscykeln:
Mål
Målet med datainsamlings- och förståelsefasen är att:
Skapa en ren datauppsättning av hög kvalitet som tydligt relaterar till målvariablerna. Leta upp datamängden i lämplig analysmiljö så att ditt team är redo för modellfasen.
Utveckla en lösningsarkitektur för datapipelinen som uppdaterar och poängsätter data regelbundet.
Så här slutför du uppgifterna
Datainsamlings- och förståelsefasen har tre huvudsakliga uppgifter:
Mata in data i målanalysmiljön.
Utforska data för att avgöra om data kan besvara frågan.
Konfigurera en datapipeline för att poängsätta nya eller regelbundet uppdaterade data.
Mata in data
Konfigurera en process för att flytta data från källplatserna till målplatserna där du kör analysåtgärder, till exempel träning och förutsägelser.
Utforska data
Innan du tränar dina modeller måste du utveckla en god förståelse för data. Verkliga datauppsättningar är ofta bullriga, saknar värden eller har en mängd andra avvikelser. Du kan använda datasammanfattning och visualisering för att granska kvaliteten på dina data och samla in information för bearbetning av data innan de är redo för modellering. Den här processen är ofta iterativ.
När du är nöjd med kvaliteten på de rensade data är nästa steg att bättre förstå datamönstren. Den här dataanalysen hjälper dig att välja och utveckla en lämplig förutsägelsemodell för ditt mål. Bestäm hur mycket data som motsvarar målet. Bestäm sedan om ditt team har tillräckligt med data för att gå vidare med nästa modelleringssteg. Återigen är den här processen ofta iterativ. Du kan behöva hitta nya datakällor med mer exakta eller mer relevanta data för att justera den datauppsättning som ursprungligen identifierades i föregående steg.
Konfigurera en datapipeline
Förutom att mata in och rensa data behöver du vanligtvis konfigurera en process för att poängsätta nya data eller uppdatera data regelbundet som en del av en pågående inlärningsprocess. Du kan använda en datapipeline eller ett arbetsflöde för att poängsätta data. Vi rekommenderar en pipeline som använder Azure Data Factory.
I det här steget utvecklar du en lösningsarkitektur för datapipelinen. Du skapar pipelinen parallellt med nästa steg i data science-projektet. Beroende på dina affärsbehov och begränsningarna i dina befintliga system där den här lösningen integreras kan pipelinen vara:
- Batchbaserad
- Direktuppspelning eller realtid
- Hybrid
Integrera med MLflow
Under datatolkningsfasen kan du använda MLflows experimentspårning för att spåra och dokumentera olika strategier för förbearbetning av data och undersökande dataanalys.
Artifacts
I det här skedet levererar ditt team:
En datakvalitetsrapport som innehåller datasammanfattningar, relationerna mellan varje attribut och mål, variabelrankningen med mera.
En lösningsarkitektur, till exempel ett diagram eller en beskrivning av din datapipeline som ditt team använder för att köra förutsägelser på nya data. Det här diagrammet innehåller också pipelinen för att träna om din modell baserat på nya data. När du använder TDSP-katalogstrukturmallen lagrar du dokumentet i projektkatalogen.
Ett kontrollpunktsbeslut. Innan du påbörjar fullfunktionsutveckling och modellbygge kan du omvärdera projektet för att avgöra om det förväntade värdet är tillräckligt för att fortsätta driva det. Du kan till exempel vara redo att fortsätta, behöva samla in mer data eller avbryta projektet om du inte hittar data som svarar på frågorna.
Peer-granskad litteratur
Forskare publicerar studier om TDSP i peer-granskad litteratur. Citaten ger en möjlighet att undersöka andra program eller liknande idéer som TDSP, inklusive fasen för datainsamling och förståelse av livscykeln.
Deltagare
Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.
Huvudförfattare:
- Markera Tabladillo | Senior Cloud Solution Architect
Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.
Relaterade resurser
I de här artiklarna beskrivs de andra stegen i TDSP-livscykeln: