Sdílet prostřednictvím


Vytvoření architektury lakehouse pro Direct Lake

Tento článek popisuje, jak vytvořit lakehouse, vytvořit tabulku Delta v jezeře a pak vytvořit základní sémantický model pro lakehouse v pracovním prostoru Microsoft Fabric.

Než začnete vytvářet lakehouse pro Direct Lake, nezapomeňte si přečíst přehled Direct Lake.

Vytvoření domova u jezera

  1. V pracovním prostoru Microsoft Fabric vyberte Nové>Další možnostia pak v Datovém inženýrstvívyberte dlaždici Lakehouse.

    Snímek obrazovky znázorňující dlaždici Lakehouse v oblasti datového inženýrství

  2. V dialogovém okně New lakehouse zadejte název a pak vyberte Vytvořit. Název může obsahovat pouze alfanumerické znaky a podtržítka.

    Snímek obrazovky s dialogovým oknem New lakehouse

  3. Ověřte, že se nový lakehouse vytvoří a úspěšně se otevře.

    snímek obrazovky s lakehousem vytvořeným v pracovním prostoru

Vytvoření tabulky Delta v jezeře

Po vytvoření nového lakehousu je nutné vytvořit alespoň jednu tabulku Delta, aby Direct Lake měl přístup k datům. Direct Lake může číst soubory ve formátu parquet, ale pro nejlepší výkon je nejlepší komprimovat data pomocí metody komprese VORDER. VORDER komprimuje data pomocí nativního algoritmu komprese modulu Power BI. Tímto způsobem může modul načíst data do paměti co nejrychleji.

Existuje několik možností, jak načíst data do jezera, včetně datových kanálů a skriptů. Následující kroky používají PySpark k přidání tabulky Delta do lakehouse založeného na Azure Open Dataset:

  1. V nově vytvořeném lakehouse vyberte Otevřít poznámkový blok, a pak vyberte Nový poznámkový blok.

    Snímek obrazovky s příkazem nového poznámkového bloku

  2. Zkopírujte a vložte následující fragment kódu do první buňky kódu, abyste sparku umožnili přístup k otevřenému modelu, a stisknutím kláves Shift + Enter kód spusťte.

    # Azure storage access info
    blob_account_name = "azureopendatastorage"
    blob_container_name = "holidaydatacontainer"
    blob_relative_path = "Processed"
    blob_sas_token = r""
    
    # Allow SPARK to read from Blob remotely
    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set(
      'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
      blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    
    
  3. Ověřte, že kód úspěšně vypíše cestu ke vzdálenému objektu blob.

    Snímek obrazovky zobrazující výstup cesty ke vzdálenému blobu

  4. Zkopírujte a vložte následující kód do další buňky a stiskněte Shift + Enter.

    # Read Parquet file into a DataFrame.
    df = spark.read.parquet(wasbs_path)
    print(df.printSchema())
    
    
  5. Ověřte, že kód úspěšně vypíše schéma datového rámce.

    Snímek obrazovky znázorňující výstup schématu datového rámce

  6. Zkopírujte a vložte následující řádky do další buňky a stiskněte Shift + Enter. První instrukce povolí metodu komprese VORDER a další instrukce uloží datový rámec jako tabulku Delta do jezera.

    # Save as delta table 
    spark.conf.set("spark.sql.parquet.vorder.enabled", "true")
    df.write.format("delta").saveAsTable("holidays")
    
    
  7. Ověřte, že všechny úlohy SPARKu byly úspěšně dokončeny. Rozbalením seznamu úloh SPARK zobrazíte další podrobnosti.

    Snímek obrazovky s rozbaleným seznamem úloh SPARK

  8. Pokud chcete ověřit úspěšné vytvoření tabulky, vyberte v levém horním rohu vedle Tabulkytři tečky (...), pak vyberte Aktualizovata rozbalte uzel Tabulky.

    snímek obrazovky s příkazem 'Aktualizovat' u uzlu 'Tabulky'

  9. Pomocí stejné metody jako u výše uvedených nebo jiných podporovaných metod přidejte další tabulky Delta pro data, která chcete analyzovat.

Vytvoření základního modelu Direct Lake pro váš lakehouse

  1. Ve vašem lakehousu vyberte Nový sémantický modela potom v dialogovém okně vyberte tabulky, které zahrnout.

    Snímek obrazovky s dialogovým oknem pro vytvoření nového modelu

  2. Výběrem možnosti Potvrdit vygenerujte model Direct Lake. Model se automaticky uloží do pracovního prostoru na základě názvu vašeho jezera a pak model otevře.

    snímek obrazovky znázorňující otevřený model v Power BI

  3. Výběrem možnosti Otevřít datový model se otevře webové prostředí pro modelování, kde můžete přidat relace mezi tabulkami a míry DAX.

    Snímek obrazovky s webovým modelováním v Power BI

Jakmile dokončíte přidávání relací a měr DAX, můžete pak vytvářet sestavy, sestavovat složený model a dotazovat se na model prostřednictvím koncových bodů XMLA stejným způsobem jako u jakéhokoli jiného modelu.