Přidání cíle lakehouse do eventstreamu
Tento článek ukazuje, jak přidat lakehouse jako cíl do eventstreamu ve streamech událostí Microsoft Fabric. Pokud chcete optimalizovat výkon streamování a dotazování v reálném čase, zvažte streamování dat do eventhouse s přidáním cíle eventhouse do eventstreamu a pak povolte dostupnost Eventhouse OneLake.
Poznámka:
Vylepšené funkce jsou ve výchozím nastavení povolené při vytváření eventstreamů. Pokud máte streamy událostí vytvořené pomocí standardních funkcí, budou tyto streamy událostí dál fungovat. Pořád je můžete upravovat a používat jako obvykle. Doporučujeme vytvořit nový stream událostí, který nahradí standardní streamy událostí, abyste mohli využívat další možnosti a výhody rozšířených streamů událostí.
Důležité
Existuje vynucení schématu pro zápis dat do cílové tabulky lakehouse. Všechny nové zápisy do tabulky musí být kompatibilní se schématem cílové tabulky v době zápisu a zajistit kvalitu dat.
Při zápisu výstupu do nové tabulky Delta se schéma tabulky vytvoří na základě prvního záznamu. Všechny záznamy výstupních dat se promítnou do schématu existující tabulky.
Pokud příchozí data mají sloupce, které nejsou ve stávajícím schématu tabulky, nezahrnou se do dat zapsaných do tabulky. Podobně platí, že pokud příchozí data chybí sloupce, které jsou ve stávajícím schématu tabulky, chybějící sloupce se zapisují do tabulky s hodnotami nastavenými na hodnotu null.
Požadavky
- Přístup k pracovnímu prostoru v režimu licence kapacity Fabric (nebo) zkušebním režimu licence s oprávněními Přispěvatel nebo vyšší.
- Přístup k pracovnímu prostoru, ve kterém se nachází váš lakehouse s oprávněními Přispěvatel nebo vyšší.
Poznámka:
Maximální počet zdrojů a cílů pro jeden stream událostí je 11.
Přidání jezera do cíle
Pokud chcete přidat cíl lakehouse do výchozího nebo odvozeného streamu událostí, postupujte takto.
V režimu úprav pro váš eventstream vyberte Přidat cíl na pásu karet a v rozevíracím seznamu vyberte Lakehouse .
Připojte uzel lakehouse k uzlu nebo operátoru streamu.
Na konfigurační obrazovce Lakehouse vyplňte následující informace:
- Zadejte název cíle.
- Vyberte pracovní prostor, který obsahuje váš jezerní dům.
- V zadaném pracovním prostoru vyberte existující lakehouse .
- Vyberte existující tabulku Delta nebo vytvořte novou tabulku pro příjem dat.
- Vyberte formát vstupních dat odesílaný do jezera. Podporované formáty dat jsou JSON, Avro a CSV (s hlavičkou).
Vyberte Upřesnit.
Pro cíl jezera jsou k dispozici dva režimy příjmu dat. V závislosti na vašem scénáři nakonfigurujte tyto režimy tak, aby optimalizovaly, jak streamy událostí Fabric zapisují do jezera.
Minimální počet řádků je minimální počet řádků, které ingestuje lakehouse v jednom souboru. Minimum je 1 řádek a maximum je 2 miliony řádků na soubor. Čím menší je minimální počet řádků, tím více souborů lakehouse vytvoří během příjmu dat.
Maximální doba trvání je maximální doba trvání, kterou jezero trvá na ingestování jednoho souboru. Minimum je 1 minuta a maximum je 2 hodiny. Čím delší je doba trvání, tím více řádků se v souboru ingestuje.
Zvolte Uložit.
Pokud chcete implementovat nově přidaný cíl lakehouse, vyberte Publikovat.
Po dokončení těchto kroků je cíl jezera pro vizualizaci v živém zobrazení k dispozici. V podokně Podrobností můžete vybrat tabulku Optimalizace v zástupce poznámkového bloku a spustit úlohu Apache Sparku v poznámkovém bloku, která slučuje malé streamovací soubory v cílové tabulce lakehouse.
Související obsah
Informace o přidání dalších cílů do eventstreamu najdete v následujících článcích:
Požadavky
Než začnete, musíte splnit následující požadavky:
- Přístup k pracovnímu prostoru v režimu licence kapacity Fabric (nebo) zkušebním režimu licence s oprávněními Přispěvatel nebo vyšší.
- Získejte přístup k pracovnímu prostoru s oprávněními Přispěvatel nebo nad tím, kde se nachází váš lakehouse.
Poznámka:
Maximální počet zdrojů a cílů pro jeden stream událostí je 11.
Přidání jezera do cíle
Pokud máte v pracovním prostoru vytvořený lakehouse, přidejte ho do svého eventstreamu jako cíl pomocí následujícího postupu:
Na pásu karet vyberte Nový cíl nebo "+" na plátně hlavního editoru a pak vyberte Lakehouse. Zobrazí se obrazovka konfigurace cíle Lakehouse .
Zadejte název cíle eventstreamu a vyplňte informace o svém jezeře.
Lakehouse: V zadaném pracovním prostoru vyberte existující jezero.
Tabulka Delta: Vyberte existující rozdílovou tabulku nebo vytvořte novou tabulku pro příjem dat.
Poznámka:
Při zápisu dat do tabulky lakehouse existuje vynucení schématu. To znamená, že všechny nové zápisy do tabulky musí být kompatibilní se schématem cílové tabulky v době zápisu a zajistit kvalitu dat.
Všechny záznamy výstupních dat se promítnou do schématu existující tabulky. Při zápisu výstupu do nové tabulky Delta se schéma tabulky vytvoří na základě prvního záznamu. Pokud příchozí data mají v porovnání se stávajícím schématem tabulky další sloupec, zapíše se do tabulky bez zahrnutí sloupce navíc. Pokud naopak v příchozích datech chybí sloupec ve srovnání s existujícím schématem tabulky, zapíše se do tabulky s hodnotou sloupce nastavenou na hodnotu null.
Formát vstupních dat: Vyberte formát pro data (vstupní data), která se odesílají do jezera.
Poznámka:
Podporované formáty vstupních dat událostí jsou JSON, Avro a CSV (s hlavičkou).
Zpracování událostí: Pomocí editoru zpracování událostí můžete určit, jak se mají data zpracovávat před odesláním do jezera. Výběrem možnosti Otevřít procesor událostí otevřete editor zpracování událostí. Další informace o zpracování v reálném čase pomocí procesoru událostí najdete v tématu Zpracování dat událostí pomocí editoru procesoru událostí. Až budete s editorem hotovi, vyberte Hotovo a vraťte se na obrazovku konfigurace cíle Lakehouse .
Pro cíl jezera jsou k dispozici dva režimy příjmu dat. Vyberte jeden z těchto režimů, abyste optimalizovali, jak funkce streamů událostí Fabric zapisuje do lakehouse na základě vašeho scénáře.
Řádky na soubor – minimální počet řádků, které Lakehouse ingestuje v jednom souboru. Čím menší je minimální počet řádků, tím více souborů Lakehouse vytvoří během příjmu dat. Minimum je 1 řádek. Maximum je 2M řádků na soubor.
Doba trvání – maximální doba trvání, kterou by lakehouse trvalo ingestování jednoho souboru. Čím delší je doba trvání, v souboru se ingestuje více řádků. Minimum je 1 minuta a maximum je 2 hodiny.
Výběrem možnosti Přidat přidáte cíl jezerahouse.
Zástupce optimalizace tabulky dostupný uvnitř cíle jezera. Toto řešení vám usnadní spuštění úlohy Sparku v poznámkovém bloku, které slučuje tyto malé streamovací soubory v cílové tabulce Lakehouse.
Cíl jezerahouse se zobrazí na plátně s indikátorem rotujícího stavu. Změna stavu na Aktivní trvá několik minut.
Správa cíle
Upravit nebo odebrat: Cíl streamu událostí můžete upravit nebo odebrat buď prostřednictvím navigačního podokna, nebo plátna.
Když vyberete Upravit, otevře se podokno úprav na pravé straně hlavního editoru. Konfiguraci můžete upravit podle potřeby, včetně logiky transformace událostí prostřednictvím editoru procesoru událostí.
Související obsah
Informace o přidání dalších cílů do eventstreamu najdete v následujících článcích: