Prozkoumání Microsoft Fabric Lakehouse

Dokončeno

Lakehouse představuje databázi a je postavená na datovém jezeře pomocí tabulek formátu Delta. Lakehouses kombinují analytické funkce založené na SQL relačního datového skladu a flexibilitu a škálovatelnost datového jezera. Lakehouses ukládají všechny formáty dat a lze je používat s různými analytickými nástroji a programovacími jazyky. Vzhledem k tomu, že cloudová řešení můžou lakehouse škálovat automaticky a poskytovat vysokou dostupnost a zotavení po havárii.

Diagram objektu lakehouse zobrazující strukturu složek datového jezera a relační funkce datového skladu

Mezi výhody jezera patří:

  • Lakehouses využívá moduly Spark a SQL ke zpracování rozsáhlých dat a podpoře analýzy strojového učení nebo prediktivního modelování.
  • Data Lakehouse jsou uspořádaná ve formátu schématu při čtení, což znamená, že místo předdefinovaného schématu definujete schéma podle potřeby.
  • Lakehouses podporuje transakce ACID (Atomicity, Consistency, Isolation, Durability) prostřednictvím tabulek formátovaných Delta Lake pro konzistenci a integritu dat.
  • Lakehouses jsou jediné umístění pro datové inženýry, datové vědce a datové analytiky pro přístup k datům a jejich používání.

Jezero je skvělou volbou, pokud chcete škálovatelné analytické řešení, které udržuje konzistenci dat. Je důležité vyhodnotit konkrétní požadavky a určit, které řešení je nejvhodnější.

Načtení dat do jezera

Objekty Fabric lakehouse jsou centrálním prvkem vašeho analytického řešení. Před načtením do jezera můžete ingestovat a transformovat data pomocí procesu ETL (extrakce, transformace, načtení).

Data můžete ingestovat v mnoha běžných formátech z různých zdrojů, včetně místních souborů, databází nebo rozhraní API. Můžete také vytvořit zástupce prostředků infrastruktury pro data v externích zdrojích, jako je Azure Data Lake Store Gen2 nebo OneLake. Pomocí Průzkumníka Lakehouse můžete procházet soubory, složky, zástupce a tabulky a zobrazit jejich obsah na platformě Fabric.

Ingestovaná data je možné transformovat a pak načíst pomocí Apache Sparku s poznámkovými bloky nebo toky dat Gen2. Pomocí kanálů Data Factory můžete orchestrovat různé aktivity ETL a připravit data do jezera.

Poznámka:

Toky dat Gen2 jsou založené na Power Query – známém nástroji pro datové analytiky pomocí Excelu nebo Power BI, který poskytuje vizuální znázornění transformací jako alternativu k tradičnímu programování.

Jezero můžete používat z mnoha důvodů, mezi které patří:

  • Analýza pomocí SQL
  • Trénování modelů strojového učení
  • Proveďte analýzu dat v reálném čase.
  • Vyvíjejte sestavy v Power BI.

Zabezpečení jezera

Přístup k Lakehouse se spravuje prostřednictvím pracovního prostoru nebo sdílení na úrovni položek. Role pracovních prostorů by se měly používat pro spolupracovníky, protože tyto role udělují přístup ke všem položkám v pracovním prostoru. Sdílenínach

Fabric Lakehouses také podporují funkce zásad správného řízení dat, včetně popisků citlivosti, a je možné je rozšířit pomocí Microsoft Purview s vaším tenantem Fabric.

Poznámka:

Další informace najdete v dokumentaci k zabezpečení v Microsoft Fabric .