Używanie narzędzi Data Lake Tools for Visual Studio do nawiązywania połączenia z usługą Azure HDInsight i uruchamiania zapytań apache Hive
Dowiedz się, jak używać narzędzi Microsoft Azure Data Lake i Stream Analytics Tools for Visual Studio (Data Lake Tools). Użyj narzędzia , aby nawiązać połączenie z klastrami Apache Hadoop w usłudze Azure HDInsight i przesłać zapytania hive.
Aby uzyskać więcej informacji na temat korzystania z usługi HDInsight, zobacz Wprowadzenie do usługi HDInsight.
Możesz użyć narzędzia Data Lake Tools for Visual Studio do uzyskiwania dostępu do usług Azure Data Lake Analytics i HDInsight. Aby uzyskać informacje na temat narzędzi Data Lake Tools, zobacz Tworzenie skryptów U-SQL przy użyciu narzędzi Data Lake Tools for Visual Studio.
Wymagania wstępne
Aby ukończyć ten artykuł i użyć narzędzi Data Lake Tools for Visual Studio, potrzebne są następujące elementy:
Klaster usługi Azure HDInsight. Aby utworzyć klaster usługi HDInsight, zobacz Rozpoczynanie pracy przy użyciu usługi Apache Hadoop w usłudze Azure HDInsight. Do uruchamiania interakcyjnych zapytań Apache Hive potrzebny jest klaster zapytań interakcyjnych usługi HDInsight.
Visual Studio. Wersja Visual Studio Community jest bezpłatna. Przedstawione tutaj instrukcje dotyczą programu Visual Studio 2019.
Instalacja narzędzi Data Lake Tools for Visual Studio
Postępuj zgodnie z odpowiednimi instrukcjami, aby zainstalować narzędzia Data Lake Tools dla używanej wersji programu Visual Studio:
W przypadku programu Visual Studio 2017 lub Visual Studio 2019:
Podczas instalacji programu Visual Studio upewnij się, że dołączysz obciążenie programowanie na platformie Azure lub magazyn danych i obciążenie przetwarzania .
W przypadku istniejących instalacji programu Visual Studio przejdź do paska menu IDE i wybierz pozycję Narzędzia>Pobierz narzędzia i funkcje, aby otworzyć Instalator programu Visual Studio. Na karcie Obciążenia wybierz co najmniej obciążenie programistyczne platformy Azure (w obszarze Internet i chmura). Możesz też wybrać obciążenie Magazyn danych i przetwarzanie (w obszarze Inne zestawy narzędzi).
Dla programu Visual Studio 2015:
Pobierz narzędzia Data Lake Tools. Należy wybrać wersję narzędzi Data Lake Tools zgodną z używaną wersją programu Visual Studio.
Aktualizowanie narzędzi Data Lake Tools for Visual Studio
Następnie upewnij się, że zaktualizujesz narzędzia Data Lake Tools do najnowszej wersji.
Otwórz program Visual Studio.
W oknie Start wybierz pozycję Kontynuuj bez kodu.
Na pasku menu środowiska IDE programu Visual Studio wybierz pozycję Rozszerzenia Zarządzaj rozszerzeniami>.
W oknie dialogowym Zarządzanie rozszerzeniami rozwiń węzeł Aktualizacje.
Jeśli lista dostępnych aktualizacji obejmuje usługi Azure Data Lake i Narzędzia analityczne usługi Stream, wybierz ją. Następnie wybierz przycisk Aktualizuj . Po wyświetleniu i usunięciu okna dialogowego Pobieranie i instalowanie program Visual Studio dodaje rozszerzenie Azure Data Lake i Stream Analytic Tools do harmonogramu aktualizacji.
Zamknij wszystkie okna programu Visual Studio. Zostanie wyświetlone okno dialogowe Instalator VSIX.
Wybierz pozycję Licencja , aby odczytać postanowienia licencyjne, a następnie wybierz pozycję Zamknij , aby powrócić do okna dialogowego Instalator VSIX.
Wybierz pozycję Modyfikuj. Rozpoczyna się instalacja aktualizacji rozszerzenia. Po pewnym czasie okno dialogowe zmieni się, aby pokazać, że zostało wykonane wprowadzanie modyfikacji. Wybierz pozycję Zamknij, a następnie uruchom ponownie program Visual Studio, aby ukończyć instalację.
Uwaga
Możesz użyć tylko narzędzi Data Lake Tools w wersji 2.3.0.0 lub nowszej, aby nawiązać połączenie z klastrami zapytań interaktywnych oraz uruchamiać zapytania interaktywne usługi Hive.
Nawiązywanie połączenia z subskrypcjami platformy Azure
Za pomocą narzędzi Data Lake Tools for Visual Studio można łączyć się z klastrami usługi HDInsight, wykonywać niektóre podstawowe operacje zarządzania i uruchamiać zapytania hive.
Uwaga
Aby uzyskać informacje na temat nawiązywania połączenia z ogólnym klastrem Hadoop, zobacz How to write and submit Hive queries using Visual Studio (Jak pisać i przesyłać zapytania hive przy użyciu programu Visual Studio).
Łączenie się z subskrypcją platformy Azure
Aby nawiązać połączenie z subskrypcją platformy Azure:
Otwórz program Visual Studio.
W oknie Start wybierz pozycję Kontynuuj bez kodu.
Na pasku menu ŚRODOWISKA IDE wybierz pozycję Wyświetl>Eksploratora serwera.
W Eksploratorze serwera kliknij prawym przyciskiem myszy pozycję Azure, wybierz pozycję Połącz z subskrypcją platformy Microsoft Azure i zakończ proces uwierzytelniania. W Eksploratorze serwera rozwiń węzeł Azure>HDInsight, aby wyświetlić listę istniejących klastrów usługi HDInsight.
Jeśli nie masz żadnych klastrów, utwórz je przy użyciu witryny Azure Portal, programu Azure PowerShell lub zestawu SDK usługi HDInsight. Aby uzyskać więcej informacji, zobacz Konfigurowanie klastrów w usłudze HDInsight.
Rozwiń węzeł klastra usługi HDInsight. Klaster zawiera węzły baz danych Hive. Ponadto domyślne konto magazynu, wszelkie dodatkowe połączone konta magazynu i dziennik usługi Hadoop. Jednostki można rozwinąć.
Po nawiązaniu połączenia z subskrypcją platformy Azure można wykonać następujące zadania.
Nawiązywanie połączenia z platformą Azure z poziomu programu Visual Studio
Nawiązywanie połączenia z witryną Azure Portal w programie Visual Studio:
W Eksploratorze serwera rozwiń węzeł Azure>HDInsight i wybierz klaster.
Kliknij prawym przyciskiem myszy klaster usługi HDInsight i wybierz polecenie Zarządzaj klastrem w witrynie Azure Portal.
Pytania dotyczące oferty i opinie z programu Visual Studio
Aby zadać pytania i przekazać opinię z programu Visual Studio:
W Eksploratorze serwera wybierz pozycję Azure>HDInsight.
Kliknij prawym przyciskiem myszy usługę HDInsight i wybierz forum MSDN , aby zadawać pytania, lub Prześlij opinię, aby przekazać opinię .
Łączenie z klastrem lub edytowanie go
Uwaga
Obecnie jedynym typem klastra usługi HDInsight, z którym można się połączyć, jest typ programu Hive.
Aby połączyć klaster usługi HDInsight:
Kliknij prawym przyciskiem myszy usługę HDInsight, a następnie wybierz pozycję Połącz klaster usługi HDInsight, aby wyświetlić okno dialogowe Łączenie klastra usługi HDInsight.
Wprowadź adres URL połączenia w formularzu
https://CLUSTERNAME.azurehdinsight.net
. Nazwa klastra automatycznie wypełnia część adresu URL nazwą klastra po przejściu do innego pola. Następnie wprowadź nazwę użytkownika i hasło, a następnie wybierz pozycję Dalej.Wybierz Zakończ. Jeśli łączenie klastra zakończy się pomyślnie, klaster zostanie wyświetlony w węźle usługi HDInsight .
Aby zaktualizować połączony klaster, kliknij prawym przyciskiem myszy klaster i wybierz polecenie Edytuj. Następnie można zaktualizować informacje o klastrze.
Eksplorowanie połączonych zasobów
Z poziomu Eksploratora serwera można zobaczyć domyślne konto magazynu i wszystkie połączone konta magazynu. Po rozwinięciu domyślnego konta magazynu można wyświetlić kontenery konta magazynu. Domyślne konto magazynu i domyślny kontener są oznaczone.
Kliknij prawym przyciskiem myszy kontener i wybierz pozycję Wyświetl kontener , aby wyświetlić zawartość kontenera. Po otwarciu kontenera możesz użyć przycisków paska narzędzi, aby odświeżyć listę zawartości, przekazać obiekt blob, usunąć wybrane obiekty blob, otworzyć obiekt blob i pobrać wybrane obiekty blob (Zapisz jako).
Uruchamianie interakcyjnych zapytań Apache Hive
Apache Hive to infrastruktura magazynu danych oparta na platformie Hadoop. Usługa Hive jest używana do wykonywania podsumowań danych, zapytań i analizy. Możesz użyć narzędzi Data Lake Tools for Visual Studio, aby uruchomić zapytania usługi Hive z poziomu programu Visual Studio. Aby uzyskać więcej informacji na temat programu Hive, zobacz Co to jest apache Hive i HiveQL w usłudze Azure HDInsight?.
Zapytanie interakcyjne w usłudze Azure HDInsight używa programu Hive w usłudze LLAP w usłudze Apache Hive 2.1. Zapytanie interakcyjne umożliwia interakcję ze złożonymi zapytaniami w stylu magazynu danych na dużych, przechowywanych zestawach danych. Uruchamianie zapytań Hive w zapytaniu interaktywnym jest znacznie szybsze niż tradycyjne zadania wsadowe Hive.
Uwaga
Uruchamianie interakcyjnych zapytań Hive jest możliwe tylko po nawiązaniu połączenia z klastrem interakcyjnych zapytań usługi HDInsight.
Możesz również użyć narzędzi Data Lake Tools for Visual Studio, aby zobaczyć, co znajduje się w zadaniu hive. Narzędzia Data Lake Tools for Visual Studio zbierają i ujawniają dzienniki Yarn dla wybranych zadań Hive.
W Eksploratorze serwera wybierz pozycję Azure>HDInsight i wybierz klaster. Ten węzeł jest punktem wyjścia w Eksploratorze serwera dla sekcji, które należy wykonać.
Zobacz tabelę hivesampletable
Wszystkie klastry usługi HDInsight mają domyślną przykładową tabelę Hive o nazwie hivesampletable
.
W klastrze wybierz pozycję Bazy danych>hive domyślne>hivesampletable.
Aby wyświetlić
hivesampletable
schemat:Rozwiń węzeł hivesampletable. Wyświetlane są nazwy i typy
hivesampletable
danych kolumn.Aby wyświetlić
hivesampletable
dane:Kliknij prawym przyciskiem myszy element hivesampletable, a następnie wybierz pozycję Wyświetl 100 pierwszych wierszy. Lista 100 wyników zostanie wyświetlona w oknie Tabela hive: hivesampletable . Ta akcja jest równoważna uruchamianiu następującego zapytania Hive przy użyciu sterownika Hive ODBC:
SELECT * FROM hivesampletable LIMIT 100
Liczbę wierszy można dostosować, zmieniając liczbę wierszy. Z listy rozwijanej możesz wybrać 50, 100, 200 lub 1000 wierszy.
Tworzenie tabel programu Hive
Do utworzenia tabeli programu Hive można użyć graficznego interfejsu użytkownika lub zapytań programu Hive. Aby uzyskać informacje o korzystaniu z zapytań Hive, zobacz Tworzenie i uruchamianie zapytań Hive.
W klastrze wybierz pozycję Domyślne bazy danych>Hive.
Kliknij prawym przyciskiem myszy pozycję domyślną, a następnie wybierz pozycję Utwórz tabelę.
Skonfiguruj tabelę.
Wybierz przycisk Utwórz tabelę, aby przesłać zadanie, które tworzy nową tabelę Programu Hive.
Tworzenie i uruchamianie zapytań Hive
Masz dwie opcje umożliwiające utworzenie i uruchomienie zapytań Hive:
- Tworzenie zapytań ad hoc
- Tworzenie aplikacji Hive
Tworzenie zapytania ad hoc
Aby utworzyć i uruchomić zapytanie ad hoc:
Kliknij prawym przyciskiem myszy klaster, w którym chcesz uruchomić zapytanie, a następnie wybierz polecenie Napisz zapytanie Hive.
Wprowadź zapytanie hive.
Edytor Hive obsługuje funkcję IntelliSense. Narzędzia Data Lake Tools for Visual Studio obsługują ładowanie zdalnych metadanych podczas edycji skryptu Hive. Jeśli na przykład wpiszesz ,
SELECT * FROM
funkcja IntelliSense wyświetli listę wszystkich sugerowanych nazw tabel. Po określeniu nazwy tabeli funkcja IntelliSense wyświetla nazwy kolumn. Narzędzia obsługują większość instrukcji DML programu Hive, podzapytań i wbudowanych sterowników UDF.Uwaga
Funkcja IntelliSense zasugeruje tylko metadane klastra zaznaczonego na pasku narzędzi usługi HDInsight.
Oto przykładowe zapytanie, którego można użyć:
SELECT devicemodel, COUNT(devicemodel) AS deviceCount FROM hivesampletable GROUP BY devicemodel ORDER BY devicemodel
Wybierz tryb wykonywania:
Interaktywne
Na pierwszej liście rozwijanej wybierz pozycję Interakcyjne, a następnie wybierz pozycję Wykonaj.
Batch
Z pierwszej listy rozwijanej wybierz pozycję Batch, a następnie wybierz pozycję Prześlij. Możesz też wybrać ikonę listy rozwijanej obok pozycji Prześlij i wybrać pozycję Zaawansowane.
Jeśli wybierzesz opcję zaawansowanego przesyłania, zostanie wyświetlone okno dialogowe Prześlij skrypt . Skonfiguruj nazwę zadania, argumenty, dodatkowe konfiguracje i katalog stanu dla skryptu.
Uwaga
Nie można przesyłać partii do klastrów zapytań interakcyjnych. Musisz użyć trybu interaktywnego.
Tworzenie aplikacji Hive
Tworzenie i uruchamianie rozwiązania Hive:
Na pasku menu wybierz pozycję Plik>nowy>projekt.
W oknie Tworzenie nowego projektu wybierz pole wyszukiwania i wpisz Hive. Następnie wybierz pozycję Aplikacja Hive i wybierz pozycję Dalej.
W oknie Konfigurowanie nowego projektu wprowadź nazwę projektu, wybierz lub utwórz projekt Lokalizacja, a następnie wybierz pozycję Utwórz.
W Eksploratorze rozwiązań kliknij dwukrotnie plik Script.hql, aby otworzyć skrypt.
Wyświetlanie podsumowania i danych wyjściowych zadania
Podsumowanie zadania różni się nieco między trybem usługi Batch i trybem interaktywnym .
Użyj ikony Odśwież , aby zaktualizować stan do momentu zmiany stanu zadania na Zakończono.
Aby uzyskać szczegółowe informacje o zadaniu w trybie usługi Batch , wybierz linki u dołu, aby wyświetlić zapytanie zadania, dane wyjściowe zadania lub dziennik zadań albo wyświetlić dzienniki usługi Yarn.
Aby uzyskać szczegółowe informacje o zadaniu w trybie interaktywnym, zobacz okienka Dane wyjściowe i HiveServer2.
Wyświetlanie grafu zadań
Obecnie wykresy zadań są wyświetlane tylko dla zadań Hive, które używają narzędzia Tez jako aparatu wykonywania. Aby uzyskać informacje na temat włączania aplikacji Tez, zobacz Co to jest apache Hive i HiveQL w usłudze Azure HDInsight?. Zobacz również: Używanie narzędzia Apache Tez zamiast redukcji mapy.
Aby wyświetlić wszystkie operatory wewnątrz wierzchołka, kliknij dwukrotnie wierzchołki grafu zadania. Możesz też wskazać konkretny operator, aby wyświetlić więcej jego szczegółów.
Nawet jeśli tez jest określony jako aparat wykonywania, wykres zadania może nie pojawić się, jeśli żadna aplikacja Tez nie zostanie uruchomiona. Taka sytuacja może wystąpić, ponieważ zadanie nie zawiera instrukcji DML. Lub dlatego, że instrukcje DML mogą zwracać się bez uruchamiania aplikacji Tez. Na przykład SELECT * FROM table1
nie uruchomi aplikacji Tez.
Wyświetlanie szczegółów wykonywania zadań
Na wykresie zadania możesz wybrać pozycję Szczegóły wykonywania zadania, aby uzyskać ustrukturyzowane i wizualizowane informacje dotyczące zadań Hive. Możesz również uzyskać więcej szczegółów zadania. Jeśli wystąpią problemy z wydajnością, możesz użyć widoku, aby uzyskać więcej szczegółów dotyczących problemu. Możesz na przykład pobrać informacje o sposobie działania każdego zadania i szczegółowych informacji o poszczególnych zadaniach (odczyt/zapis danych, harmonogram/godzina rozpoczęcia/zakończenia i inne). Skorzystaj z informacji, aby dostosować konfiguracje zadań lub architekturę systemu w oparciu o wizualizowane informacje.
Wyświetlanie zadań Hive
Istnieje możliwość wyświetlenia zapytań dotyczących zadań, danych wyjściowych zadań, dzienników zadań oraz dzienników Yarn dla zadań Hive.
W najnowszej wersji narzędzi możesz zobaczyć, co znajduje się w zadaniach hive, zbierając i wyświetlając dzienniki usługi Yarn. Dziennik Yarn może być pomocny w badaniu problemów z wydajnością. Aby uzyskać więcej informacji na temat sposobu zbierania dzienników usługi Yarn przez usługę HDInsight, zobacz Access Apache Hadoop YARN application logs (Uzyskiwanie dostępu do dzienników aplikacji usługi Apache Hadoop YARN).
Aby wyświetlić zadania Hive:
Kliknij prawym przyciskiem myszy klaster usługi HDInsight i wybierz polecenie Wyświetl zadania.
Zostanie wyświetlona lista zadań Hive uruchomionych w klastrze.
Wybierz zadanie. W oknie Podsumowanie zadania hive wybierz jeden z następujących linków:
- Zapytanie zadania
- Dane wyjściowe zadania
- Dziennik zadań
- Dziennik usługi Yarn
Uruchamianie skryptów apache Pig
Na pasku menu wybierz pozycję Plik>nowy>projekt.
W oknie Start wybierz pole wyszukiwania i wprowadź ciąg Pig. Następnie wybierz pozycję Aplikacja pig i wybierz przycisk Dalej.
W oknie Konfigurowanie nowego projektu wprowadź nazwę projektu i wybierz lub utwórz lokalizację dla projektu. Następnie wybierz Utwórz.
W okienku Eksplorator rozwiązań IDE kliknij dwukrotnie plik Script.pig, aby otworzyć skrypt.
Opinie i znane problemy
Problem, w którym wyniki uruchamiane z wartościami null nie są wyświetlane jako rozwiązane. W przypadku zablokowania na tym problemie należy skontaktować się z zespołem pomocy technicznej.
Skrypt HQL tworzony przez program Visual Studio jest kodowany w zależności od ustawienia regionu lokalnego użytkownika. Skrypt nie jest wykonywany poprawnie, jeśli został przesłany do klastra jako plik binarny.
Następne kroki
Ten artykuł zawierał informacje dotyczące sposobu używania pakietu Data Lake Tools for Visual Studio w celu nawiązywania połączenia z klastrami usługi HDInsight z programu Visual Studio. Przedstawiono też sposób uruchamiania zapytania Hive.
- Uruchamianie zapytań Apache Hive przy użyciu wtyczki Data Lake Tools for Visual Studio
- Co to są apache Hive i HiveQL w usłudze Azure HDInsight?
- Tworzenie klastra Apache Hadoop — szablon
- Przesyłanie zadań platformy Apache Hadoop w usłudze HDInsight
- Analizowanie danych X przy użyciu technologii Apache Hive i Apache Hadoop w usłudze HDInsight