Použití nástrojů Data Lake pro Visual Studio k připojení ke službě Azure HDInsight a spouštění dotazů Apache Hive
Naučte se používat Microsoft Azure Data Lake a Stream Analytics Tools for Visual Studio (Data Lake Tools). Pomocí nástroje se připojte ke clusterům Apache Hadoop v Azure HDInsight a odešlete dotazy Hive.
Další informace o používání služby HDInsight najdete v tématu Začínáme se službou HDInsight.
Pomocí nástrojů Data Lake pro Visual Studio můžete přistupovat ke službě Azure Data Lake Analytics i HDInsight. Informace o nástrojích Data Lake najdete v tématu Vývoj skriptů U-SQL pomocí nástrojů Data Lake pro Visual Studio.
Požadavky
K dokončení tohoto článku a použití nástrojů Data Lake pro Visual Studio potřebujete následující položky:
Cluster Azure HDInsight. Pokud chcete vytvořit cluster HDInsight, přečtěte si téma Začínáme s využitím Apache Hadoopu ve službě Azure HDInsight. Ke spouštění interaktivních dotazů Apache Hive potřebujete cluster HDInsight Interactive Query .
Visual Studio. Edice Visual Studio Community je bezplatná. Pokyny uvedené tady jsou pro Visual Studio 2019.
Instalace nástrojů Data Lake Tools pro Visual Studio
Podle příslušných pokynů nainstalujte nástroje Data Lake pro vaši verzi sady Visual Studio:
Pro Visual Studio 2017 nebo Visual Studio 2019:
Během instalace sady Visual Studio nezapomeňte zahrnout úlohu vývoje pro Azure nebo úlohu ukládání a zpracování dat.
U existujících instalací sady Visual Studio přejděte na řádek nabídek integrovaného vývojového prostředí (IDE) a vyberte Nástroje>Získat nástroje a funkce a otevřete Instalační program pro Visual Studio. Na kartě Úlohy vyberte aspoň úlohu vývoje Pro Azure (v části Web &Cloud). Nebo vyberte úlohu ukládání a zpracování dat (v části Jiné sady nástrojů).
Pro Visual Studio 2015:
Stáhněte si nástroje Data Lake. Zvolte verzi nástrojů Data Lake, která se shoduje s vaší verzí sady Visual Studio.
Aktualizace nástrojů Data Lake pro Visual Studio
Dále se ujistěte, že aktualizujete nástroje Data Lake na nejnovější verzi.
Otevřete sadu Visual Studio.
V okně Start vyberte Pokračovat bez kódu.
Na řádku nabídek integrovaného vývojového prostředí sady Visual Studio zvolte Rozšíření>spravovat rozšíření.
V dialogovém okně Spravovat rozšíření rozbalte uzel Aktualizace .
Pokud seznam dostupných aktualizací zahrnuje Azure Data Lake a Stream Analytic Tools, vyberte ho. Pak vyberte tlačítko Aktualizovat . Jakmile se zobrazí dialogové okno Stáhnout a nainstalovat a zmizí, Visual Studio přidá do plánu aktualizace rozšíření Azure Data Lake a Stream Analytic Tools .
Zavřete všechna okna sady Visual Studio. Zobrazí se dialogové okno Instalační program VSIX.
Pokud chcete přečíst licenční podmínky, vyberte Možnost Zavřít a vraťte se do dialogového okna Instalační program VSIX.
Vyberte Upravit. Spustí se instalace aktualizace rozšíření. Po chvíli se dialogové okno změní, aby se zobrazilo, že se provádí úpravy. Vyberte Zavřít a restartujte Visual Studio, aby se instalace dokončila.
Poznámka:
Pro připojení ke clusterům Interactive Query a spouštění interaktivních dotazů Hive můžete použít pouze nástroje Data Lake verze 2.3.0.0 nebo novější.
Připojení k předplatným služby Azure
Pomocí nástrojů Data Lake pro Visual Studio se můžete připojit ke clusterům HDInsight, provádět některé základní operace správy a spouštět dotazy Hive.
Poznámka:
Informace o připojení k obecnému clusteru Hadoop naleznete v tématu Jak psát a odesílat dotazy Hive pomocí sady Visual Studio.
Připojení k předplatnému Azure
Připojení k předplatnému Azure:
Otevřete sadu Visual Studio.
V okně Start vyberte Pokračovat bez kódu.
V řádku nabídek integrovaného vývojového prostředí zvolte Zobrazit>Průzkumníka serveru.
V Průzkumníku serveru klikněte pravým tlačítkem na Azure, vyberte Připojit k předplatnému Microsoft Azure a dokončete proces ověřování. V Průzkumníku serveru rozbalte Azure>HDInsight a zobrazte seznam existujících clusterů HDInsight.
Pokud nemáte žádné clustery, vytvořte ho pomocí webu Azure Portal, Azure PowerShellu nebo sady HDInsight SDK. Další informace najdete v tématu Nastavení clusterů ve službě HDInsight.
Rozbalte cluster služby HDInsight. Cluster obsahuje uzly pro databáze Hive. Výchozí účet úložiště, všechny další propojené účty úložiště a protokol služby Hadoop. Entity můžete dále rozšířit.
Po připojení k předplatnému Azure můžete provádět následující úlohy.
Připojení k Azure ze sady Visual Studio
Připojení k webu Azure Portal ze sady Visual Studio:
V Průzkumníku serveru rozbalte Azure>HDInsight a vyberte cluster.
Klikněte pravým tlačítkem na cluster HDInsight a vyberte Spravovat cluster na webu Azure Portal.
Nabídnout otázky a zpětnou vazbu ze sady Visual Studio
Kladení otázek nebo poskytnutí zpětné vazby ze sady Visual Studio:
V Průzkumníku serveru zvolte Azure>HDInsight.
Klikněte pravým tlačítkem na HDInsight a vyberte fórum MSDN a položte otázky nebo pošlete zpětnou vazbu.
Propojení nebo úprava clusteru
Poznámka:
V současné době je jediným typem clusteru HDInsight, na který můžete vytvořit propojení, typ Hive.
Propojení clusteru HDInsight:
Klikněte pravým tlačítkem myši na HDInsight a vyberte Propojit cluster HDInsight, aby se zobrazilo dialogové okno Propojit cluster HDInsight.
Zadejte adresu URL připojení ve formuláři
https://CLUSTERNAME.azurehdinsight.net
. Název clusteru automaticky vyplní část názvu clusteru vaší adresy URL, když přejdete do jiného pole. Pak zadejte uživatelské jméno a heslo a vyberte Další.Vyberte Dokončit. Pokud je propojení clusteru úspěšné, cluster se zobrazí pod uzlem HDInsight .
Pokud chcete aktualizovat propojený cluster, klikněte pravým tlačítkem myši na cluster a vyberte Upravit. Informace o clusteru pak můžete aktualizovat.
Zkoumání propojených prostředků
V Průzkumníkovi serveru můžete zobrazit výchozí účet úložiště a všechny propojené účty úložiště. Pokud rozbalíte výchozí účet úložiště, uvidíte kontejnery na účtu úložiště. Jsou označeny jako výchozí účet úložiště a výchozí kontejner.
Klikněte pravým tlačítkem na kontejner a vyberte Zobrazit kontejner a zobrazte obsah kontejneru. Po otevření kontejneru můžete pomocí tlačítek panelu nástrojů aktualizovat seznam obsahu, nahrát objekt blob, odstranit vybrané objekty blob, otevřít objekt blob a stáhnout (Uložit jako) vybrané objekty blob.
Spouštění interaktivních dotazů Apache Hive
Apache Hive je infrastruktura datového skladu postavená na Hadoop. Hive se používá k souhrnům dat, dotazům a analýzám. Pomocí nástrojů Data Lake pro Visual Studio můžete spouštět dotazy Hive ze sady Visual Studio. Další informace o Hivu najdete v tématu Co je Apache Hive a HiveQL ve službě Azure HDInsight?.
Interaktivní dotaz v Azure HDInsight používá Hive v LLAP v Apache Hivu 2.1. Interactive Query přináší interaktivitu do složitých dotazů ve stylu datového skladu u velkých uložených datových sad. Spouštění dotazů Hive v interaktivním dotazu je mnohem rychlejší než tradiční dávkové úlohy Hive.
Poznámka:
Interaktivní dotazy Hive můžete spouštět pouze po připojení ke clusteru HDInsight Interactive Query.
Pomocí nástrojů Data Lake pro Visual Studio můžete také zjistit, co se nachází v úloze Hive. Nástroje Data Lake pro Visual Studio shromažďují a zpřístupňují protokoly Yarn určitých úloh Hive.
V Průzkumníku serveru zvolte Azure>HDInsight a vyberte cluster. Tento uzel je výchozím bodem v Průzkumníku serveru pro následující části.
Zobrazení tabulky hivesampletable
Všechny clustery HDInsight mají výchozí ukázkovou tabulku Hive s názvem hivesampletable
.
V clusteru zvolte Výchozí>hivesampletable Hive Databases.>
Zobrazení schématu
hivesampletable
:Rozbalte hivesampletable. Zobrazí se názvy a datové typy
hivesampletable
sloupců.hivesampletable
Zobrazení dat:Klikněte pravým tlačítkem myši na hivesampletable a vyberte Zobrazit prvních 100 řádků. Seznam 100 výsledků se zobrazí v tabulce Hive: hivesampletable window. Tato akce je ekvivalentní spuštění následujícího dotazu Hive pomocí ovladače Odbc Hive:
SELECT * FROM hivesampletable LIMIT 100
Počet řádků můžete přizpůsobit změnou počtu řádků. V rozevíracím seznamu můžete zvolit 50, 100, 200 nebo 1000 řádků.
Vytváření tabulek Hive
K vytvoření tabulky Hive můžete použít grafické rozhraní (GUI) nebo dotazy Hive. Informace o používání dotazů Hive najdete v tématu Vytváření a spouštění dotazů Hive.
V clusteru zvolte výchozí nastavení Databáze Hive.>
Klikněte pravým tlačítkem myši na výchozí a vyberte Vytvořit tabulku.
Konfigurace tabulky.
Výběrem tlačítka Vytvořit tabulku odešlete úlohu, která vytvoří novou tabulku Hive.
Vytváření a spouštění dotazů Hive
Vytvářet a spouštět dotazy Hive můžete dvěma způsoby:
- Vytváření dotazů ad-hoc
- Vytvoření aplikace Hive
Vytvoření ad hoc dotazu
Vytvoření a spuštění ad hoc dotazu:
Klikněte pravým tlačítkem na cluster, ve kterém chcete dotaz spustit, a vyberte Napsat dotaz Hive.
Zadejte dotaz Hive.
Editor Hive podporuje technologii IntelliSense. Nástroje Data Lake pro Visual Studio podporují načítání vzdálených metadat při úpravách skriptu Hive. Pokud například zadáte
SELECT * FROM
, IntelliSense zobrazí seznam všech navrhovaných názvů tabulek. Pokud zadáte název tabulky, IntelliSense vypíše názvy sloupců. Nástroje podporují většinu příkazů DML Hive, poddotazů a integrovaných UDF.Poznámka:
IntelliSense navrhuje pouze metadata clusteru vybraného na panelu nástrojů služby HDInsight.
Tady je ukázkový dotaz, který můžete použít:
SELECT devicemodel, COUNT(devicemodel) AS deviceCount FROM hivesampletable GROUP BY devicemodel ORDER BY devicemodel
Zvolte režim provádění:
Interaktivní
V prvním rozevíracím seznamu zvolte Interactive (Interaktivní) a pak vyberte Execute (Spustit).
Batch
V prvním rozevíracím seznamu zvolte Batch a pak vyberte Odeslat. Nebo vyberte ikonu rozevíracího seznamu vedle možnosti Odeslat a zvolte Upřesnit.
Pokud vyberete možnost rozšířeného odeslání, zobrazí se dialogové okno Odeslat skript . Nakonfigurujte název úlohy, argumenty, další konfigurace a stavový adresář pro skript.
Poznámka:
Dávky nemůžete odesílat do clusterů Interactive Query. Musíte použít interaktivní režim.
Vytvoření aplikace Hive
Vytvoření a spuštění řešení Hive:
V řádku nabídek zvolte Soubor>nový>projekt.
V okně Vytvořit nový projekt vyberte vyhledávací pole a zadejte Hive. Pak zvolte Aplikaci Hive a vyberte Další.
V okně Konfigurovat nový projekt zadejte název projektu, vyberte nebo vytvořte umístění projektu a pak vyberte Vytvořit.
V Průzkumníku řešení dvojím kliknutím otevřete skript Script.hql.
Zobrazení souhrnu a výstupu úlohy
Souhrn úlohy se mírně liší mezi režimem Batch a Interactive .
Pomocí ikony Aktualizovat aktualizujte stav, dokud se stav úlohy nezmění na Dokončeno.
Pokud chcete zobrazit podrobnosti o úloze v režimu Batch , vyberte odkazy v dolní části, abyste viděli dotaz úlohy, výstup úlohy nebo protokol úloh nebo zobrazit protokoly Yarn.
Podrobnosti úlohy z interaktivního režimu najdete v podoknech Výstup a HiveServer2.
Zobrazení grafu úloh
V současné době se grafy úloh zobrazují jenom pro úlohy Hive, které jako prováděcí modul používají Tez. Informace o povolení Tez najdete v tématu Co je Apache Hive a HiveQL ve službě Azure HDInsight? Viz také použití Apache Tez místo redukce map.
Pokud chcete zobrazit všechny operátory uvnitř vrcholu, poklikejte na vrcholy grafu úlohy. Můžete také ukázat na konkrétní operátor a zobrazit tak další podrobnosti o tomto operátoru.
I když je Tez zadán jako prováděcí modul, nemusí se graf úloh objevit, pokud není spuštěna žádná aplikace Tez. K této situaci může dojít, protože úloha neobsahuje příkazy DML. Nebo protože příkazy DML se můžou vrátit bez spuštění aplikace Tez. Například SELECT * FROM table1
nespustí aplikaci Tez.
Zobrazení podrobností o spuštění úlohy
V grafu úlohy můžete vybrat podrobnosti o spuštění úlohy, abyste získali strukturované a vizualizované informace pro úlohy Hive. Můžete také získat další podrobnosti o úloze. Pokud dojde k problémům s výkonem, můžete pomocí tohoto zobrazení získat další podrobnosti o problému. Můžete například načíst informace o tom, jak jednotlivé úlohy fungují, a podrobné informace o jednotlivých úkolech (čtení a zápis dat, plán, zahájení/ukončení a další). Na základě vizualizovaných informací můžete tyto informace využít k ladění konfigurací úloh nebo architektury systémy.
Zobrazení úloh Hive
Můžete zobrazit dotazy úlohy, výstup úlohy, protokoly úlohy a protokoly Yarn pro úlohy Hive.
V nejnovější verzi nástrojů můžete zjistit, co se nachází v úlohách Hive, shromažďováním a zpřístupněním protokolů Yarn. Protokol Yarn vám může pomoci prozkoumat problémy s výkonem. Další informace o tom, jak HDInsight shromažďuje protokoly Yarn, najdete v tématu Přístup k protokolům aplikací Apache Hadoop YARN.
Zobrazení úloh Hive:
Klikněte pravým tlačítkem na cluster HDInsight a vyberte Zobrazit úlohy.
Zobrazí se seznam úloh Hive, které se v clusteru spustily.
Vyberte úlohu. V okně Souhrn úlohy Hive vyberte jeden z následujících odkazů:
- Dotaz úlohy
- Výstup úlohy
- Protokol úlohy
- Protokol Yarn
Spouštění skriptů Apache Pig
V řádku nabídek zvolte Soubor>nový>projekt.
V okně Start vyberte vyhledávací pole a zadejte Pig. Pak vyberte Aplikaci Pig a vyberte Další.
V okně Konfigurovat nový projekt zadejte název projektu a vyberte nebo vytvořte umístění projektu. Pak vyberte Vytvořit.
V podokně ide Průzkumník řešení poklikejte na Script.pig a otevřete skript.
Zpětná vazba a známé problémy
Opravili jsme problém, kdy se nezobrazovaly výsledky začínající hodnotami null. Pokud vás tento problém blokuje, kontaktujte tým podpory.
Skript HQL, který Visual Studio vytvoří, je kódován v závislosti na nastavení místní oblasti uživatele. Skript se nespustí správně, pokud ho nahrajete do clusteru jako binární soubor.
Další kroky
V tomto článku jste zjistili, jak se pomocí balíčku nástrojů Data Lake pro Visual Studio připojit ke clusterům HDInsight ze sady Visual Studio. Také jste se naučili spustit dotaz Hive.