Prozkoumání Microsoft Fabric Lakehouse
Lakehouse představuje databázi a je postavená na datovém jezeře pomocí tabulek formátu Delta. Lakehouses kombinují analytické funkce založené na SQL relačního datového skladu a flexibilitu a škálovatelnost datového jezera. Lakehouses ukládají všechny formáty dat a lze je používat s různými analytickými nástroji a programovacími jazyky. Vzhledem k tomu, že cloudová řešení můžou lakehouse škálovat automaticky a poskytovat vysokou dostupnost a zotavení po havárii.
Mezi výhody jezera patří:
- Lakehouses využívá moduly Spark a SQL ke zpracování rozsáhlých dat a podpoře analýzy strojového učení nebo prediktivního modelování.
- Data Lakehouse jsou uspořádaná ve formátu schématu při čtení, což znamená, že místo předdefinovaného schématu definujete schéma podle potřeby.
- Lakehouses podporuje transakce ACID (Atomicity, Consistency, Isolation, Durability) prostřednictvím tabulek formátovaných Delta Lake pro konzistenci a integritu dat.
- Lakehouses jsou jediné umístění pro datové inženýry, datové vědce a datové analytiky pro přístup k datům a jejich používání.
Jezero je skvělou volbou, pokud chcete škálovatelné analytické řešení, které udržuje konzistenci dat. Je důležité vyhodnotit konkrétní požadavky a určit, které řešení je nejvhodnější.
Načtení dat do jezera
Objekty Fabric lakehouse jsou centrálním prvkem vašeho analytického řešení. Před načtením do jezera můžete ingestovat a transformovat data pomocí procesu ETL (extrakce, transformace, načtení).
Data můžete ingestovat v mnoha běžných formátech z různých zdrojů, včetně místních souborů, databází nebo rozhraní API. Můžete také vytvořit zástupce prostředků infrastruktury pro data v externích zdrojích, jako je Azure Data Lake Store Gen2 nebo OneLake. Pomocí Průzkumníka Lakehouse můžete procházet soubory, složky, zástupce a tabulky a zobrazit jejich obsah na platformě Fabric.
Ingestovaná data je možné transformovat a pak načíst pomocí Apache Sparku s poznámkovými bloky nebo toky dat Gen2. Pomocí kanálů Data Factory můžete orchestrovat různé aktivity ETL a připravit data do jezera.
Poznámka:
Toky dat Gen2 jsou založené na Power Query – známém nástroji pro datové analytiky pomocí Excelu nebo Power BI, který poskytuje vizuální znázornění transformací jako alternativu k tradičnímu programování.
Jezero můžete používat z mnoha důvodů, mezi které patří:
- Analýza pomocí SQL
- Trénování modelů strojového učení
- Proveďte analýzu dat v reálném čase.
- Vyvíjejte sestavy v Power BI.
Zabezpečení jezera
Přístup k Lakehouse se spravuje prostřednictvím pracovního prostoru nebo sdílení na úrovni položek. Role pracovních prostorů by se měly používat pro spolupracovníky, protože tyto role udělují přístup ke všem položkám v pracovním prostoru. Sdílenínach
Fabric Lakehouses také podporují funkce zásad správného řízení dat, včetně popisků citlivosti, a je možné je rozšířit pomocí Microsoft Purview s vaším tenantem Fabric.
Poznámka:
Další informace najdete v dokumentaci k zabezpečení v Microsoft Fabric .