Úvod

Dokončeno

Datové vědy jsou obory, které používají vědecké metody, procesy, algoritmy a nástroje k extrakci znalostí a přehledů ze strukturovaných a nestrukturovaných dat.

V typickém projektu datových věd je běžné začít průzkumnou analýzou dat (EDA), kde zahrnuje pochopení vzorů, zjišťování anomálií, testování hypotéz a kontrolu předpokladů souvisejících s podkladovými daty.

Poznatky získané z EDA mohou vést datové vědce výběrem vhodných statistických modelů nebo modelů strojového učení, které nejlépe vyhovují datům.

Poznámkové bloky Microsoft Fabric umožňují bezproblémovou integraci výsledků zkoumání do pracovního postupu datových věd. To se pak dá použít k podávání upstreamového řešení pro vytváření sestav, jako je například sestava Power BI.

Vysvětlení procesu datových věd

Zkoumání dat je předběžné šetření dat, která nastaví fázi pro všechny následné kroky v procesu datových věd.

Diagram of sequential steps in the data science process.

  1. Definujte problém: Spolu s obchodními uživateli a analytiky se rozhodněte, co má model předpovídat a kdy je úspěšný.
  2. Získejte data: Vyhledejte zdroje dat a získejte přístup tím, že data uložíte do Lakehouse.
  3. Příprava dat: Prozkoumejte data tím, že je přečtete z Lakehouse do poznámkového bloku. Vyčistěte a transformujte data na základě požadavků modelu.
  4. Trénování modelu: Zvolte algoritmus a hodnoty hyperparametrů na základě zkušebního a chybového procesu sledováním experimentů pomocí MLflow.
  5. Generování přehledů: K vygenerování požadovaných předpovědí použijte dávkové bodování modelu.

V tomto modulu se zaměříte na načtení dat a zkoumání dat. Pracujete v poznámkovém bloku v Microsoft Fabric a pracujete s Pythonem, abyste porozuměli různým typům distribuce dat. Naučíte se koncept chybějících dat a strategií pro efektivní zpracování chybějících dat. Nakonec vizualizujete data pomocí různých technik a knihoven vizualizace dat.