Упражнение. Отправка и запрос данных в HDInsight

Завершено

Теперь, когда вы подготовили учетную запись хранения и кластер интерактивных запросов, пришло время загрузить данные о недвижимости и выполнить некоторые запросы. Данные, которые вы будете передавать, — это данные о недвижимости Нью-Йорка. Они включают более 28 000 записей о недвижимости, включая адреса, цены на продажи, площадь в квадратных метрах и информацию о расположении для простого сопоставления. Ваша инвестиционная компания в сфере недвижимости использует эти сведения, чтобы определить соответствующие цены на квадратный метр для новых помещений на рынке, на основе цен на недавно проданную собственность.

Для отправки и запроса данных мы будем использовать Data Analytics Studio — веб-приложение, которое было установлено в действии сценария, использовавшегося при создании кластера интерактивных запросов. Вы можете использовать Data Analytics Studio для передачи данных в службу хранилища Azure, преобразования данных в таблицы Hive, используя указанные типы данных и имена столбцов, а затем запросить данные в кластере с помощью HiveQL. В дополнение к Data Analytics Studio вы можете использовать любое совместимое с ODBC/JDBC средство для работы с данными с помощью Hive, например Visual Studio Code Spark & Hive Tools.

Далее вы будете использовать записную книжку Zeppelin для быстрой визуализации тенденций в данных. Записные книжки Zeppelin позволяют отсылать запросы и просматривать результаты в виде нескольких заранее определенных диаграмм. Записные книжки Zeppelin, установленные на кластерах интерактивных запросов, имеют интерпретатор JDBC с драйвером Hive.

Загрузка данных о недвижимости

  1. Перейдите по адресу https://github.com/Azure/hdinsight-mslearn/tree/master/Sample%20data и скачайте набор данных, чтобы сохранить файл propertysales.csv на компьютере.

Отправка данных с помощью Data Analytics Studio

  1. Теперь откройте в браузере в Интернете Data Analytics Studio, используя следующий URL-адрес, заменив ServerName именем используемого кластера: https://servername.azurehdinsight.net/das/

Для входа имя пользователя — Admin, а пароль — созданный вами пароль.

При возникновении ошибки перейдите на вкладку "Обзор" кластера на портале Azure и убедитесь, что для параметра состояние установлено значение работает, а для параметра тип кластера — значение Интерактивный запрос 3.1 (HDi 4.0).

  1. Аналитика Data Studio запускается в браузере в Интернете.

A screenshot of the Data Analytics Studio application

  1. В меню слева щелкните "База данных", затем нажмите зеленую вертикальную кнопку с многоточием и выберите команду Создать базу данных.

A screenshot of the Create Database button in the Data Analytics Studio application

  1. Назовите БД "newyorkrealestate" и затем щелкните Создать.

  2. В обозревателе базы данных щелкните поле имени базы данных, а затем выберите newyorkrealestate.

Database Explorer in the Data Analytics Studio application

  1. В обозревателе базы данных нажмите +, а затем Создать таблицу.

Create table button Database Explorer in the Data Analytics Studio application

  1. Назовите новую таблицу "propertysales" и нажмите кнопку Отправить таблицу. Имена таблиц должны содержать только строчные буквы и цифры, без специальных символов.

Upload table in the Data Analytics Studio application

  1. В области выбора формата файла на странице:
    • Убедитесь, что файл имеет формат CSV
    • Установите флажок Является ли первая строка заголовком?.
  2. В области выбора источника файла на странице:
    • Выберите Загрузить с локального устройства.
    • Щелкните "Перетащить файл", чтобы загрузить его, или нажмите кнопку "Обзор" и перейдите к файлу propertysales.csv.
  3. В разделе "Столбцы" измените тип данных широты и долготы на строку, а дату продажи — на дату.

Change data type in the Data Analytics Studio application

  1. Прокрутите страницу вверх и просмотрите раздел Предварительный просмотр таблицы, чтобы проверить правильность заголовков столбцов.

Table preview in the Data Analytics Studio application

  1. Прокрутите страницу вниз и нажмите кнопку Создать, чтобы создать таблицу Hive в базе данных newyorkrealestate.

Create Hive Table button in the Data Analytics Studio application

  1. В левом меню щелкните Создать.

Compose button in the Data Analytics Studio application

  1. Попробуйте выполнить следующий запрос Hive, чтобы убедиться, что все работает правильно.
SELECT `ADDRESS`, `ZIP CODE`, `SALE PRICE`, `SQUARE FOOTAGE`
FROM newyorkrealestate.propertysales;
  1. Результат должен выглядеть следующим образом.

Query output in the Data Analytics Studio application

  1. Просмотрите производительность запроса, щелкнув запросы в меню слева, а затем выбрав запрос SELECT ADDRESS, ZIP CODE, SALE PRICE, SQUARE FOOTAGE FROM newyorkrealestate.propertysales, который вы только что запустили.

Если имеются какие либо рекомендации по производительности, средство отобразит эти рекомендации. На этой странице также отображается фактический выполняемый SQL-запрос, приводится наглядное объяснение запроса, отображаются сведения о конфигурации, выводимые Hive при выполнении запроса, а также предоставляется временная шкала, которая показывает, сколько времени затрачено на выполнение каждой части запроса.

Просмотр таблиц Hive с помощью записной книжки Zeppelin

  1. На портал Azure на странице "Обзор" в поле Панель мониторинга кластера щелкните Записная книжка Zeppelin.

Opening a Zeppelin Notebook in the Azure portal

  1. Щелкните Создать примечание, назовите примечание "Данные о недвижимости" и нажмите кнопку Создать.

Create a new Zeppelin Notebook in the Azure portal

  1. Вставьте следующий фрагмент кода в командную строку в окне Zeppelin и щелкните значок воспроизведения.
%jdbc(hive)
show databases;
select * from newyorkrealestate.propertysales limit 10 ; 

Выходные данные запроса отображаются в окне. Вы видите, что возвращаются первые 10 результатов.

Viewing Query results in a Zeppelin Notebook in the Azure portal

  1. Теперь запустите более сложный запрос, чтобы использовать некоторые возможности визуализации и построения диаграмм, доступные в Zeppelin. Скопируйте следующий запрос в командную строку и нажмите кнопку.
%jdbc(hive)
select `sale price`, `square footage` from newyorkrealestate.propertysales 
where `sale price` < 20000000 AND `square footage` < 50000;

По умолчанию выходные данные запроса отображаются в формате таблицы. Вместо этого выберите "Точечная диаграмма", чтобы увидеть один из визуальных элементов, предоставляемых записными книжками Zeppelin.

Visualizations in a Zeppelin Notebook in the Azure portal