Sdílet prostřednictvím


Zachycení dat ze služby Event Hubs ve formátu Delta Lake

Tento článek vysvětluje, jak pomocí editoru kódu automaticky zaznamenávat streamovaná data ve službě Event Hubs v účtu Azure Data Lake Storage Gen2 ve formátu Delta Lake.

Požadavky

  • Vaše prostředky Azure Event Hubs a Azure Data Lake Storage Gen2 musí být veřejně přístupné a nemůžou být za bránou firewall nebo zabezpečenou ve službě Azure Virtual Network.
  • Data ve službě Event Hubs musí být serializovaná ve formátu JSON, CSV nebo Avro.

Konfigurace úlohy pro zachytávání dat

Pomocí následujících kroků nakonfigurujte úlohu Stream Analytics pro zaznamenání dat ve službě Azure Data Lake Storage Gen2.

  1. Na webu Azure Portal přejděte do centra událostí.

  2. Vyberte Funkce>Zpracovávat data a v kartě formátu Delta Lake vyberte Spustit na zachytávání dat do ADLS Gen2.
    Snímek obrazovky znázorňující úvodní karty dat služby Event Hubs

    Alternativně vyberte Funkce>Capture a v části Výstupní formát serializace událostí vyberte Možnost Delta Lake a pak vyberte Spustit konfiguraci zachytávání dat. Snímek obrazovky znázorňující vstupní bod vytvoření zachytávání dat

  3. Zadejte název pro identifikaci úlohy Stream Analytics. Vyberte Vytvořit.
    Snímek obrazovky s oknem nové úlohy Stream Analytics, kde zadáte název úlohy

  4. Zadejte typ serializace dat ve službě Event Hubs a metodu ověřování, kterou úloha používá pro připojení ke službě Event Hubs. Pak vyberte Připojit. Snímek obrazovky znázorňující konfiguraci připojení služby Event Hubs

  5. Po úspěšném navázání připojení se zobrazí:

    • Pole, která se nacházejí ve vstupních datech Můžete zvolit Přidat pole nebo můžete vybrat tři tečky vedle pole a volitelně odebrat, přejmenovat nebo změnit jeho název.
    • Živá ukázka příchozích dat v tabulce Náhled dat v zobrazení diagramu Pravidelně se aktualizuje. Pokud chcete zobrazit statické zobrazení ukázkového vstupu, můžete vybrat Možnost Pozastavit náhled streamování.
      Snímek obrazovky znázorňující ukázková data v části Náhled dat
  6. Výběrem dlaždice Azure Data Lake Storage Gen2 upravte konfiguraci.

  7. Na stránce konfigurace Azure Data Lake Storage Gen2 postupujte takto:

    1. V rozevírací nabídce vyberte předplatné, název účtu úložiště a kontejner.

    2. Po výběru předplatného by se metoda ověřování a klíč účtu úložiště měly vyplnit automaticky.

    3. V případě cesty k tabulce Delta se používá k určení umístění a názvu tabulky Delta Lake uložené v Azure Data Lake Storage Gen2. K definování cesty k tabulce Delta a názvu tabulky delta můžete použít jeden nebo více segmentů cesty. Další informace najdete v tématu Zápis do tabulky Delta Lake.

    4. Vyberte Připojit.

      První snímek obrazovky znázorňující okno objektu blob, ve kterém upravíte konfiguraci připojení objektu blob

  8. Po navázání připojení se zobrazí pole, která se nacházejí ve výstupních datech.

  9. Výběrem možnosti Uložit na panelu příkazů uložte konfiguraci.

  10. Výběrem možnosti Start na panelu příkazů spusťte tok streamování, který zachytává data. Pak v okně spustit úlohu Stream Analytics:

    1. Zvolte čas spuštění výstupu.
    2. Vyberte počet jednotek streamování (SU), se kterými se úloha spouští. SU představuje výpočetní prostředky přidělené ke spuštění úlohy Stream Analytics. Další informace najdete v tématu Jednotky streamování ve službě Azure Stream Analytics.
      Snímek obrazovky s oknem spustit úlohu Stream Analytics, kde nastavíte čas spuštění výstupu, jednotky streamování a zpracování chyb
  11. Po výběru možnosti Start se úloha spustí během dvou minut a metriky se otevřou v části karty, jak je znázorněno na následujícím obrázku. Snímek obrazovky znázorňující graf metrik

  12. Nová úloha se dá zobrazit na kartě Úlohy Stream Analytics. Snímek obrazovky znázorňující vybraný odkaz Otevřít metriky

Ověření výstupu

Ověřte, že se soubory parquet s formátem Delta Lake generují v kontejneru Azure Data Lake Storage.

Snímek obrazovky zobrazující vygenerované soubory Parquet v kontejneru Azure Data Lake Storage (ADLS).

Důležité informace o použití funkce geografické replikace služby Event Hubs

Služba Azure Event Hubs nedávno spustila funkci geografické replikace ve verzi Public Preview. Tato funkce se liší od funkce geografického zotavení po havárii služby Azure Event Hubs.

Pokud je typ převzetí služeb při selhání vynucený a konzistence replikace asynchronní, úloha Stream Analytics nezaručuje přesně jeden výstup výstupu do výstupu služby Azure Event Hubs.

Azure Stream Analytics, jako producent s centrem událostí výstup, může sledovat zpoždění meze úlohy během doby trvání převzetí služeb při selhání a během omezování službou Event Hubs v případě, že prodleva replikace mezi primární a sekundární dosáhne maximální nakonfigurované prodlevy.

Azure Stream Analytics, jako uživatel se službou Event Hubs jako vstupem, může během doby trvání převzetí služeb při selhání sledovat zpoždění vodoznaku a po dokončení převzetí služeb při selhání může přeskočit data nebo najít duplicitní data.

Vzhledem k těmto upozorněním doporučujeme restartovat úlohu Stream Analytics s odpovídajícím časem spuštění hned po dokončení převzetí služeb při selhání služby Event Hubs. Vzhledem k tomu, že funkce geografické replikace služby Event Hubs je ve verzi Public Preview, nedoporučujeme tento model používat pro produkční úlohy Stream Analytics v tuto chvíli. Aktuální chování Stream Analytics se zlepší, než bude funkce geografické replikace služby Event Hubs obecně dostupná a dá se použít v produkčních úlohách Stream Analytics.

Další kroky

Teď už víte, jak pomocí Editoru kódu Stream Analytics vytvořit úlohu, která zachytává data Event Hubs do Azure Data Lake Storage Gen2 ve formátu Delta Lake. V dalším kroku se dozvíte více o Službě Azure Stream Analytics a o tom, jak monitorovat úlohu, kterou jste vytvořili.