Úvod

Dokončeno

Datové vědy jsou obory, které používají vědecké metody, procesy, algoritmy a nástroje k extrakci znalostí a přehledů ze strukturovaných a nestrukturovaných dat.

V typickém projektu datových věd je běžné začít průzkumnou analýzou dat (EDA), kde zahrnuje pochopení vzorů, zjišťování anomálií a kontrolu předpokladů souvisejících s podkladovými daty.

Jakmile budete mít tyto znalosti, můžete přejít k fázi předběžného zpracování. Tady řešíte problémy s kvalitou dat identifikovanými během EDA a připravíte data na modelování. Předběžné zpracování transformuje nezpracovaná data do srozumitelného formátu pro algoritmy strojového učení, což zlepšuje jejich schopnost provádět přesné předpovědi.

Data Wrangler v Microsoft Fabric nabízí grafické prostředí, ve kterém můžete snadno generovat kód pro účely zkoumání a předběžného zpracování a zajistit, aby vaše data byla v nejlepším možném tvaru, než se použije k trénování modelu strojového učení.

Vysvětlení procesu datových věd

Předběžné zpracování dat je předběžná příprava dat, která nastaví fázi pro všechny následné kroky v procesu datových věd.

Diagram of sequential steps in the data science process.

  1. Definujte problém: Spolu s obchodními uživateli a analytiky se rozhodněte, co má model předpovídat a kdy je úspěšný.
  2. Získejte data: Vyhledejte zdroje dat a získejte přístup tím, že data uložíte do Lakehouse.
  3. Příprava dat: Prozkoumejte data tím, že je přečtete z Lakehouse do poznámkového bloku. Vyčistěte a transformujte data na základě požadavků modelu.
  4. Trénování modelu: Zvolte algoritmus a hodnoty hyperparametrů na základě zkušebního a chybového procesu sledováním experimentů pomocí MLflow.
  5. Generování přehledů: K vygenerování požadovaných předpovědí použijte dávkové bodování modelu.

V tomto modulu se zaměřujeme na předběžné zpracování dat pomocí služby Data Wrangler. Pracujete v poznámkovém bloku Microsoft Fabric pomocí nástroje Data Wrangler i Pythonu pro zkoumání dat. Naučíte se spravovat chybějící data a pomocí různých operátorů transformovat data pro kanál sestavení modelu. Nakonec získáte praktické zkušenosti s předzpracováním dat pomocí služby Data Wrangler v poznámkových blocích Microsoft Fabric prostřednictvím praktického cvičení.