Použití toků dat v kanálech

Článek
10/26/2023

Při vytváření složitých kanálů s více toky dat může mít logický tok velký dopad na časování a náklady. Tato část popisuje dopad různých strategií architektury.

Paralelní provádění toků dat

Pokud paralelně spustíte více toků dat, služba pro každou aktivitu spustí samostatné clustery Spark. To umožňuje izolovat a spouštět každou úlohu paralelně, ale zároveň povede k několika clusterům spuštěným najednou.

Pokud se toky dat spouštějí paralelně, doporučujeme nepovolit dobu prostředí Azure IR pro živou vlastnost, protože vede k několika nepoužitým teplým fondům.

Tip

Místo vícenásobného spuštění stejného toku dat pro každou aktivitu připravte data v datovém jezeře a použijte zástupné cesty ke zpracování dat v jednom toku dat.

Postupné spouštění toků dat

Pokud provádíte aktivity toku dat v sekvenci, doporučujeme nastavit hodnotu TTL v konfiguraci Azure IR. Služba znovu používá výpočetní prostředky, což vede k rychlejšímu spuštění clusteru. Každá aktivita je stále izolovaná a přijímá nový kontext Sparku pro každé spuštění.

Přetížení jednoho toku dat

Pokud vložíte veškerou logiku do jednoho toku dat, služba provede celou úlohu v jedné instanci Sparku. I když to může vypadat jako způsob, jak snížit náklady, kombinuje různé logické toky a může být obtížné monitorovat a ladit. Pokud jedna komponenta selže, všechny ostatní části úlohy také selžou. Doporučujeme uspořádat toky dat podle nezávislých toků obchodní logiky. Pokud se tok dat změní na příliš velký, rozdělíte ho na samostatné komponenty, což usnadňuje monitorování a ladění. I když počet transformací v toku dat není nijak omezený, příliš mnoho ztěžuje úlohu.

Paralelní spouštění jímek

Výchozím chováním jímek toku dat je postupné spouštění jednotlivých jímek sériovým způsobem a selhání toku dat v případě, že dojde k chybě v jímce. Kromě toho jsou všechny jímky ve výchozím nastavení stejné skupiny, pokud nezajdete do vlastností toku dat a nenastavíte pro jímky různé priority.

Toky dat umožňují seskupit jímky do skupin z karty vlastností toku dat v návrháři uživatelského rozhraní. Pořadí provádění jímek a seskupení jímek můžete nastavit pomocí stejného čísla skupiny. Pokud chcete pomoct se správou skupin, můžete požádat službu, aby spouštěla jímky ve stejné skupině, aby běžela paralelně.

V kanálu je možnost zapnout paralelní načítání jímky spuštěním aktivity toku dat v části Vlastnosti jímky. Když povolíte možnost "spustit paralelně", dáváte pokyn tokům dat zapisovat do připojených jímek ve stejnou dobu, nikoli postupně. Aby bylo možné využít paralelní možnost, musí být jímky seskupené a připojené ke stejnému datovému proudu prostřednictvím nové větve nebo podmíněného rozdělení.

Přístup k databázovým šablonám Azure Synapse v kanálech

Při vytváření kanálu můžete použít šablonu databáze Azure Synapse. Při vytváření nového toku dat vyberte v nastavení zdroje nebo jímky databázi pracovního prostoru. V rozevíracím seznamu databáze jsou uvedeny databáze vytvořené prostřednictvím šablony databáze. Možnost Databáze pracovního prostoru je dostupná jenom pro nové toky dat, není dostupná, pokud používáte existující kanál z galerie synapse Studia.

Podívejte se na další Tok dat články týkající se výkonu:

Sdílet prostřednictvím

Použití toků dat v kanálech

Paralelní provádění toků dat

Postupné spouštění toků dat

Přetížení jednoho toku dat

Paralelní spouštění jímek

Přístup k databázovým šablonám Azure Synapse v kanálech

Váš názor

Další materiály

Sdílet prostřednictvím

Použití toků dat v kanálech

Paralelní provádění toků dat

Postupné spouštění toků dat

Přetížení jednoho toku dat

Paralelní spouštění jímek

Přístup k databázovým šablonám Azure Synapse v kanálech

Související obsah

Váš názor

Další materiály