Práce s Microsoft Fabric Lakehouses

Dokončeno

Teď, když rozumíte základním funkcím Microsoft Fabric Lakehouse, pojďme se podívat, jak s jednou pracovat.

Vytvoření a prozkoumání jezera

Při vytváření nového jezera máte ve svém pracovním prostoru automaticky vytvořené tři různé datové položky.

  • Jezero obsahuje klávesové zkratky, složky, soubory a tabulky.
  • Sémantický model (výchozí) poskytuje vývojářům sestav Power BI snadný zdroj dat.
  • Koncový bod analýzy SQL umožňuje přístup jen pro čtení k dotazování dat pomocí SQL.

Snímek obrazovky se třemi položkami Lakehouse, jak je popsáno

S daty v jezeře můžete pracovat ve dvou režimech:

  • Lakehouse umožňuje přidávat tabulky, soubory a složky v jezeře a pracovat s nimi.
  • Koncový bod SQL Analytics umožňuje použít SQL k dotazování tabulek v lakehouse a správě relačního sémantického modelu.

Snímek obrazovky se dvěma režimy Průzkumníka lakehouse

Příjem dat do jezera

Ingestování dat do jezera je prvním krokem procesu ETL. K přenesení dat do jezera použijte některou z následujících metod.

  • Nahrání: Nahrajte místní soubory.
  • Toky dat Gen2: Import a transformace dat pomocí Power Query
  • Poznámkové bloky: Použití Apache Sparku k ingestování, transformaci a načítání dat
  • Kanály služby Data Factory: Použijte aktivitu kopírování dat.

Tato data je pak možné načíst přímo do souborů nebo tabulek. Při ingestování dat zvažte způsob načítání dat a určete, jestli byste před zpracováním nebo použitím pracovních tabulek měli načíst všechna nezpracovaná data jako soubory.

Definice úloh Sparku je také možné použít k odesílání dávkových a streamovaných úloh do clusterů Spark. Nahráním binárních souborů z výstupu kompilace různých jazyků (například .jar z Javy) můžete na data hostovaná v jezeře použít odlišnou logiku transformace. Kromě binárního souboru můžete chování úlohy dále přizpůsobit tak, že nahrajete další knihovny a argumenty příkazového řádku.

Poznámka:

Další informace najdete v dokumentaci k vytvoření definice úlohy Apache Spark.

Přístup k datům pomocí klávesových zkratek

Dalším způsobem, jak získat přístup k datům a používat je v prostředcích infrastruktury, je použití klávesových zkratek. Klávesové zkratky umožňují integrovat data do jezera a přitom je uchovávat v externím úložišti.

Klávesové zkratky jsou užitečné, když potřebujete zdrojová data, která jsou v jiném účtu úložiště, nebo dokonce v jiném poskytovateli cloudu. V rámci lakehouse můžete vytvořit zástupce, které odkazují na různé účty úložiště a další položky infrastruktury, jako jsou datové sklady, databáze KQL a další lakehouse.

Oprávnění a přihlašovací údaje ke zdrojovým datům spravuje OneLake. Při přístupu k datům prostřednictvím zástupce jiného umístění OneLake se identita volajícího uživatele použije k autorizaci přístupu k datům v cílové cestě zástupce. Aby mohl uživatel číst data, musí mít v cílovém umístění oprávnění.

Klávesové zkratky je možné vytvořit v databázích lakehouse i KQL a zobrazit se jako složka v jezeře. Díky tomu může Spark, SQL, inteligence v reálném čase a Analysis Services využívat klávesové zkratky při dotazování dat.

Poznámka:

Další informace o tom, jak používat klávesové zkratky, najdete v dokumentaci ke zkratkám OneLake v dokumentaci k Microsoft Fabric.