Анализ данных Twitter в облаке с помощью Apache Hadoop и Hive
В данном руководстве описаны процедуры запроса, изучения и анализа данных Twitter с помощью служб на базе Apache Hadoop для Windows Azure, а также Hive-запрос в Excel. Социальные сети — это главный источник больших данных. Поэтому общедоступные API таких социальных медиа, как Twitter, служат источником полезной информации и помогают лучше понять сетевые тренды.
Руководство состоит из следующих разделов.
- Поиск, загрузка, установка и использование Microsoft Analytics для Twitter
- Получение фидов Twitter с помощью cURL и Twitter Streaming API
- Запрос и настройка нового Hadoop на кластере Windows Azure
- Обработка данных Twitter с помощью Hive на Hadoop в кластере Windows
- Настройка Hive ODBC и панели Hive в Excel для получения данных Hive
Поиск, загрузка, установка и использование Microsoft Analytics для Twitter
Microsoft Analytics для Twitter доступен для скачивания по следующему адресу: https://www.microsoft.com/download/en/details.aspx?id=26213.
Для работы необходимы приложение Excel 2010 и надстройка PowerPivot, которую можно скачать по адресу https://www.microsoft.com/download/en/details.aspx?id=29074).
Вставьте следующие теги роликов и учетные записи в окно запросов:
#moneyball, @MoneyballMovie, @helpmovie, @BridesmaidsSay, @CONTAGION_movie
Нажмите кнопку и следуйте инструкциям на экране.
Примечание. В этом разделе Hadoop не используется. Здесь показано, как работать с Twitter Search API и бизнес-аналитикой с функцией самообслуживания в Excel и PowerPivot.
Получение фида Twitter с помощью cURL и Twitter Streaming API
На этом этапе потребуется приложение curl.exe. Загрузите файл curl для своей ОС (например, двоичный файл SSL для 64-разрядной Windows) на странице https://curl.haxx.se/download.html
и распакуйте curl.exe в подходящую папку (например, C:\twitterdata).
Скопируйте два файла — gettwitterstream.cmd и twitter_params.txt — из папки Step2GetTwitterFeedUsingCURLAndTwitterStreamingAPI в папку, содержащую curl.exe:
Измените файл twitter_params.txt следующим образом, чтобы отслеживать твиты:
track=moneyball,MoneyballMovie,helpmovie,BridesmaidsSay,CONTAGION_movie
Измените командный скрипт gettwitterstream.cmd , вставив свое имя пользователя в Twitter вместо USER и пароль вместо PASSWORD на следующей строке:
curl -d @twitter_params.txt -k https://stream.twitter.com/1/statuses/filter.json -uUSER:PASSWORD >>twitter_stream_seq.txt
Запустите скрипт gettwitterstream.cmd из командной строки следующим образом:
На экране появится примерно такая информация:
Чтобы завершить работу скрипта, нажмите Ctrl+C. Затем можно переименовать файл и повторно запустить скрипт.
Запрос и настройка нового Hadoop на кластере Windows Azure
На этом этапе необходим доступ к CTP для службы на базе Apache Hadoop в Windows Azure. Перейдите на веб-сайт https://www.hadooponazure.com/ и щелкните ссылку invitation. Если у вас имеется доступ, нажмите кнопку Sign in.
Запросите новый кластер. Ниже приведен пример большого кластера под названием mailboxpeak. Введите имя пользователя и пароль, а затем нажмите кнопку Request cluster. По всем вопросам обращайтесь к руководству «Инструкции и часто задаваемые вопросы по службе на базе Apache Hadoop для Windows Azure».
Откройте порты FTPS и ODBC, чтобы получить доступ к серверу.
Щелкните значок Interactive Console.
Создайте каталог для текстового файла Twitter на HDFS с помощью следующей команды Javascript:
js> #mkdir /example/data
Чтобы загрузить пробные текстовые файлы, выполните следующие команды:
js> #put
Source: C:\hadoop\example\data\Sample.txt
Destination: /examples/data
Для загрузки больших (несжатых) текстовых файлов непосредственно на HDFS понадобится файл curl.exe. Если этого файла нет, загрузите его согласно инструкциям шага 2 и распакуйте в подходящую папку, например сюда: C:\hadoop\example\data. Затем откройте PowerShell, перейдите в C:\hadoop\example\data и вставьте следующий скрипт PowerShell для FTPS в текстовый файл SampleData (SampleData.txt):
C:\hadoop\example\data>
#----- begin curl ftps to hadoop on azure powershell example ----
#------ Replace XXXXXXX with the appropriate servername / username / password
$serverName = "XXX.cloudapp.net"; $userName = "XXXX";
$password = "XXXXXXXX";
$fileToUpload = "SampleData.txt"; $destination = "/example/data/";
$Md5Hasher = [System.Security.Cryptography.MD5]::Create();
$hashBytes = $Md5Hasher.ComputeHash($([Char[]]$password))
foreach ($byte in $hashBytes) { $passwordHash += "{0:x2}" -f $byte }
$curlCmd = ".\curl -k --ftp-create-dirs -T $fileToUpload -u $userName"
$curlCmd += ":$passwordHash ftps://$serverName" + ":2226$destination"
invoke-expression $curlCmd
#----- end curl ftps to hadoop on azure powershell example ----
Очень большие файлы необходимо сжимать перед загрузкой. Сжатый файл (с расширением .gz и т. п.) можно загрузить в учетную запись хранилища Windows Azure. С помощью программы CloudXplorer (https://clumsyleaf.com/products/cloudxplorer) загрузка файла выполняется следующим образом:
Настроив учетную запись хранилища Windows Azure и установив CloudXplorer, перейдите на портал Windows Azure и скопируйте основной ключ доступа своей учетной записи хранилища, нажав кнопку View в правом столбце.
Затем откройте CloudXplorer и выберите File -> Manage Accounts. Откроется новое диалоговое окно. Нажмите New и выберите Windows Azure account.
В следующем диалоговом окне вставьте имя учетной записи хранилища, которое вы указали при настройке учетной записи хранилища (например, hadoopdemo), и скопированный ключ доступа.
В новой учетной записи хранилища создайте контейнер (в Windows Azure каталоги называются контейнерами).
Загрузите (скопируйте) ZIP-архив в контейнер (в нашем случае контейнер называется data).
Настройте учетную запись хранилища больших двоичных объектов Windows Azure, щелкнув значок Manage Data
рядом с Set up ASV.
Сейчас вам понадобится имя учетной записи Windows Azure Storage Account Name (в нашем случае это hadoopdemo) и основной ключ доступа.
Введите имя учетной записи хранилища Windows Azure и основной ключ доступа, а затем нажмите Save settings.
Обработка данных Twitter с помощью Hive на Hadoop вкластере Windows
Перейдите на веб-сайт https://www.hadooponazure.com/. Подключитесь к головному узлу Hadoop, нажав Remote Desktop.
Нажмите кнопку Open.
Войдите на удаленный сервер с именем и паролем, которые вы использовали при создании кластера на шаге 3.
Создайте каталог (например, c:\Apps\dist\example\data) на сервере головного узла удаленного Hadoop (на стороне NTFS), используя Проводник или командную строку, а затем перейдите в него.
Скопируйте все содержимое папки CopyToHeadnode в новый каталог. Сюда же входит файл HiveUDFs.jar (пользовательские функции для запросов Hive), gzip, а также текстовые файлы запросов Hive. Кроме того, скопируйте файл All steps to run from the Hadoop Command Shell.txt, чтобы упростить выполнение последней части данного этапа.
RDP поддерживает копирование между размещенным и удаленным рабочим столом. Иногда Hadoop распаковывает файл gzip во время его копирования в HDFS.
Откройте Hadoop Command Shell на удаленном рабочем столе.
Перейдите в каталог c:\Apps\dist\example\data.
Скопируйте файл twitterstreamseq8.gz из хранилища Windows Azure в папку c:\Apps\dist\example\data (на стороне NTFS). Местоположение файла в учетной записи хранилища зависит от ассоциаций хранилища Windows Azure, заданных на шаге 3. В нашем случае контейнер называется data и отображается в строке под asv:// :
c:\Apps\dist\example\data>hadoop fs -copyToLocal asv://data/twitter_stream_seq8.txt.gz twitter_stream_seq8.txt.gz
Распакуйте архив twitterstreamseq8.gz в папку c:\Apps\dist\example\data, как показано ниже (вам понадобится программа gzip.exe, которую нужно скачать с веб-сайта https://www.gzip.org/ и поместить в каталог, откуда выполняется команда):
c:\Apps\dist\example\data> gzip -d -N twitter_stream_seq8.txt.gz
Примечание. Иногда Hadoop выполняет распаковку файла при копировании в HDFS, однако это работает только для архивов .bz2 (bzip2) https://bzip.org/:
hadoop fs -copyFromLocal twitter_stream_seq8.txt.gz /example/data/twitter_stream_seq8.txt
Скопируйте twitterstreamseq8.txt из папки c:\Apps\dist\example\data в HDFS следующей командой:
c:\Apps\dist\example\data>
hadoop fs -copyFromLocal twitter_stream_seq8.txt /example/data/twitter_stream_seq8.txt
1. Убедитесь, что файл на HDFS обновился. Для этого откройте
и перейдите в папку /example/data.
Несколько следующих действий содержатся в файле All steps to run from the Hadoop Command Shell.txt, который вы скопировали в головной узел.
Создайте и загрузите twitter_raw следующей командой:
c:\apps\dist\example\data>hive -v -f load_twitter_raw.txt
Таблица будет создана в каталоге /hive/warehouse на стороне HTFS:
Это можно проверить с помощью Hive, набрав команды c:\Apps\dist\example\data>hive и Hive>show tables; , как показано ниже.
Для выхода из Hive используйте команду hive>quit; . Создайте и загрузите twitter_temp следующим образом:
c:\apps\dist\example\data>hive -v -f create_twitter_temp.txt
При наличии 4 узлов эта операция займет более 20 минут, а при наличии 8 узлов — 8 минут 55 секунд. Проверьте ход выполнения в следующем окне:
Щелкните задание, чтобы просмотреть подробности и ход выполнения. Операция может занять более 20 минут.
Отслеживать выполнение задания можно также с помощью Hadoop Command Shell:
Это можно проверить с помощью Hive, набрав команды c:\Apps\dist\example\data>hive и Hive>show tables:
Создайте и загрузите twitter_stream следующим образом:
c:\apps\dist\example\data>hive -v -f create_twitter_stream.txt
При наличии 4 узлов эта операция займет более 60 минут, а при наличии 8 узлов — 31 минуту 54 секунды. Отслеживайте ход выполнения, как описано выше. Создайте и загрузите twitterstreamsample следующей командой:
c:\apps\dist\example\data>hive -v -f create_twitter_stream_sample.txt
Отслеживайте ход выполнения, как описано выше. Создайте и загрузите twitter_movies следующим образом:
c:\apps\dist\example\data>hive -v -f create_twitter_movies.txt
Отслеживайте ход выполнения, как описано выше. Создайте и загрузите twittermoviesvw с помощью команды:
c:\apps\dist\example\data>hive -v -f create_twitter_movies_vw.txt
Отслеживайте ход выполнения, как описано выше.
Настройка Hive ODBC и панели Hive в Excel для получения данных Hive
Этот раздел взят из документа «Инструкции и часто задаваемые вопросы по службе на базе Apache Hadoop для Windows Azure» , который находится на плитке загрузок
в Hadoop на портале Windows Azure.
Оттуда же можно скачать HiveODBCSetup для 64- и 32-разрядных версий Excel.
Как подключиться к надстройке Hive для Excel в Hadoop на платформе Windows Azure с помощью HiveODBC
Важнейшей функциональной возможностью решения Microsoft для обработки больших данных является интеграция Hadoop с компонентами бизнес-аналитики Microsoft. Наглядный тому пример — подключение Excel к фреймворку хранилища данных Hive в кластере Hadoop. В этом разделе показано, как использовать Excel через драйвер Hive ODBC.
Установка драйвера Hive ODBC
Чтобы начать установку, загрузите 64-разрядную версию драйвера Hive ODBC (файл MSI) из Hadoop на портале Windows Azure. Дважды щелкните HiveODBCSetupx64.msi для запуска установки. Прочитайте лицензионное соглашение. Если вы согласны с его условиями, нажмите I accept и затем Install.
После завершения установки щелкните Finish, чтобы выйти из мастера.
Установка надстройки Hive для Excel
Для установки этой надстройки требуются 64-разрядные версии драйвера Hive ODBC и приложения Excel 2010. Запустите 64-разрядную версию Excel 2010. Система предложит установить расширение HiveExcel. Нажмите Install. Когда расширение будет установлено, щелкните вкладку Данные в Microsoft Excel 2010. Откроется панель Hive, как показано на следующем снимке экрана:
Создание источника данных Hive ODBC для Excel
Выберите Start ->Control Panel, чтобы запустить панель управления Microsoft Windows. В окне панели управления выберите System and Security -> Administrative Tools ->Data Sources (ODBC) . Откроется диалоговое окно ODBC Data Source Administrator.
В диалоговом окне ODBC Data Source Administrator выберите вкладку System DSN. Нажмите Add, чтобы создать источник данных. Выберите драйвер HIVE в списке драйверов ODBC.
Нажмите Finish. Откроется диалоговое окно ODBC Hive Setup, как показано на снимке экрана ниже.
Введите имя в поле Data Source Name. Например, MyHiveData. В поле Host введите имя узла кластера, созданного на портале. Например, myhadoopcluster.cloudapp.net. Укажите имя пользователя для аутентификации на портале.
Нажмите OK, чтобы сохранить источник данных Hive. Нажмите OK, чтобы закрыть диалоговое окно ODBC Data Source Administrator.
Получение данных Hive в Excel
Запустите 64-разрядную версию Excel 2010. Затем перейдите на вкладку Data. Щелкните Hive Panel, чтобы открыть панель Hive в Excel. В раскрывающемся списке Select or Enter Hive Connection укажите имя источника данных, созданного ранее.
Система попросит ввести пароль для аутентификации в кластере на портале. Введите пароль и имя пользователя. В раскрывающемся списке Select the Hive Object to Query выберите hivesampletable [Table] . Отметьте флажками все столбцы в таблице. Панель Hive Query должна выглядеть примерно так:
Нажмите Execute Query.
Для обработки данных из нашего примера нужно выполнить запрос следующего вида:
Select * from twittermoviesvw limit 20
Выводы
В данном руководстве мы рассмотрели, как запрашивать, изучать и анализировать данные из Twitter с помощью Hadoop на Windows Azure и запроса Hive в Excel.