Ćwiczenie — przekazywanie i wykonywanie zapytań dotyczących danych w usłudze HDInsight
Teraz, po aprowizacji konta magazynu i klastra zapytań interakcyjnych, nadszedł czas, aby przekazać dane nieruchomości i uruchomić kilka zapytań. Przekazane dane to dane dotyczące nieruchomości w Nowym Jorku. Zawiera ponad 28 000 rekordów nieruchomości, w tym adresy, ceny sprzedaży, nagrania kwadratowe i informacje o lokalizacji geokodowanej w celu łatwego mapowania. Twoja firma inwestycyjna nieruchomości wykorzystuje te informacje, aby określić odpowiednie ceny materiału kwadratowego dla nowych nieruchomości przychodzących na rynek, na podstawie cen sprzedaży wcześniej sprzedanych nieruchomości.
Aby przekazać dane i wykonać zapytanie o dane, użyjemy narzędzia Data Analytics Studio, czyli aplikacji internetowej zainstalowanej w akcji skryptu użytej podczas tworzenia klastra interakcyjnego zapytań. Program Data Analytics Studio umożliwia przekazywanie danych do usługi Azure Storage, przekształcanie danych w tabele hive przy użyciu ustawionych typów danych i nazw kolumn, a następnie wykonywanie zapytań o dane w klastrze przy użyciu języka HiveQL. Oprócz programu Data Analytic Studio można użyć dowolnego narzędzia zgodnego ze standardem ODBC/JDBC do pracy z danymi przy użyciu programu Hive, takiego jak narzędzia Spark i Hive Tools for Visual Studio Code.
Następnie użyjesz notesu Zeppelin, aby szybko wizualizować trendy w danych. Notesy zeppelin umożliwiają wysyłanie zapytań i wyświetlanie wyników na wielu wstępnie zdefiniowanych wykresach. Notesy Zeppelin zainstalowane w klastrach Interactive Query mają interpreter JDBC ze sterownikiem Hive.
Pobieranie danych dotyczących nieruchomości
- Przejdź do https://github.com/Azure/hdinsight-mslearn/tree/master/Sample%20datastrony i pobierz zestaw danych, aby zapisać plik propertysales.csv na komputerze.
Przekazywanie danych przy użyciu programu Data Analytics Studio
- Teraz otwórz program Data Analytics Studio w przeglądarce internetowej przy użyciu następującego adresu URL, zastępując nazwę serwera użytą nazwą klastra: https:// servername.azurehdinsight.net/das/
Aby się zalogować, nazwa użytkownika jest administratorem, a hasło to utworzone hasło.
Jeśli wystąpi błąd, przejdź do karty Przegląd klastra w witrynie Azure Portal i upewnij się, że stan jest ustawiony na Uruchomiono, a typ klastra, wersja usługi HDI jest ustawiona na Interactive Query 3.1 (HDI 4.0).
- Usługa Data Studio Analytics jest uruchamiana w przeglądarce internetowej.
- Kliknij pozycję Baza danych w menu po lewej stronie, a następnie kliknij zielony przycisk wielokropka w pionie, a następnie kliknij pozycję Utwórz bazę danych.
Nadaj bazie danych nazwę "newyorkrealestate", a następnie kliknij przycisk Utwórz.
W Eksploratorze bazy danych kliknij pole nazwy bazy danych, a następnie wybierz pozycję newyorkrealestate.
- W Eksploratorze bazy danych kliknij+, a następnie kliknij pozycję Utwórz tabelę.
- Nadaj nowej tabeli nazwę "propertysales", a następnie kliknij pozycję Przekaż tabelę. Nazwy tabel muszą zawierać tylko małe litery i cyfry, bez znaków specjalnych.
- W obszarze Wybierz format pliku na stronie:
- Upewnij się, że format pliku to csv
- Zaznacz pole Czy nagłówek pierwszego wiersza?
- W obszarze Wybierz źródło pliku na stronie:
- Wybierz pozycję Przekaż z lokalnego.
- Kliknij pozycję Przeciągnij plik, aby przekazać lub kliknąć przycisk przeglądaj , a następnie przejdź do pliku propertysales.csv.
- W sekcji Kolumny zmień typ danych Szerokość geograficzna i Długość geograficzna na Ciąg, a data sprzedaży na datę.
- Przewiń w górę i przejrzyj sekcję Podgląd tabel, aby sprawdzić, czy nagłówki kolumn wyglądają poprawnie.
- Przewiń w dół i kliknij przycisk Utwórz , aby utworzyć tabelę Programu Hive w bazie danych newyorkrealestate.
- W menu po lewej stronie kliknij pozycję Utwórz.
- Spróbuj wykonać następujące zapytanie Hive, aby upewnić się, że wszystko działa zgodnie z oczekiwaniami.
SELECT `ADDRESS`, `ZIP CODE`, `SALE PRICE`, `SQUARE FOOTAGE`
FROM newyorkrealestate.propertysales;
- Dane wyjściowe powinny wyglądać podobnie do poniższych.
- Przejrzyj wydajność zapytania, klikając pozycję Zapytania w menu po lewej stronie, a następnie wybierając zapytanie SELECT
ADDRESS
, ,ZIP CODE
,SALE PRICE
SQUARE FOOTAGE
FROM newyorkrealestate.propertysales, które zostało właśnie uruchomione.
Gdyby były dostępne jakiekolwiek zalecenia dotyczące wydajności, narzędzie wyświetliłoby te zalecenia. Ta strona wyświetla również rzeczywiste zapytanie SQL, które zostało uruchomione, zawiera wizualne wyjaśnienie zapytania, pokazuje szczegóły konfiguracji wnioskowane przez program Hive podczas uruchamiania zapytania, a oś czasu przedstawia czas spędzony na wykonywaniu każdej części zapytania.
Eksplorowanie tabel programu Hive przy użyciu notesu Zeppelin
- W witrynie Azure Portal na stronie Przegląd w polu Pulpit nawigacyjny klastra kliknij pozycję Notes Zeppelin.
- Kliknij pozycję Nowa uwaga, nadaj notatce Dane nieruchomości, a następnie kliknij przycisk Utwórz.
- Wklej poniższy fragment kodu w wierszu polecenia w oknie Zeppelin i kliknij ikonę odtwarzania.
%jdbc(hive)
show databases;
select * from newyorkrealestate.propertysales limit 10 ;
Dane wyjściowe zapytania są wyświetlane w oknie. Widać, że zwracane są pierwsze 10 wyników.
- Teraz uruchom bardziej złożone zapytanie, aby użyć niektórych funkcji wizualizacji i grafów dostępnych w aplikacji Zeppelin. Skopiuj następujące zapytanie do wiersza polecenia i kliknij pozycję .
%jdbc(hive)
select `sale price`, `square footage` from newyorkrealestate.propertysales
where `sale price` < 20000000 AND `square footage` < 50000;
Domyślnie dane wyjściowe zapytania są wyświetlane w formacie tabeli. Zamiast tego wybierz pozycję Wykres punktowy, aby wyświetlić jedną z wizualizacji, które udostępnia notesy Zeppelin.