Открытие записной книжки Jupyter Notebook в кластере HDInsight Spark
После создания кластера HDInsight Spark можно выполнять интерактивные запросы и задания Spark SQL в кластере Apache Spark в Azure HDInsight. Для этого сначала необходимо создать записную книжку. Записная книжка — это интерактивный редактор, позволяющий инженерам данных и специалистам по обработке и анализу данных взаимодействовать с данными с помощью ряда языков. К ним относятся Python, SQL, Scala и другие. HDInsight поддерживает Jupyter, Zeppelin и Livy для взаимодействия с данными. Уровень взаимодействия зависит от вашей рабочей нагрузки.
Apache Spark в HDInsight поддерживает указанные ниже рабочие нагрузки.
Интерактивный анализ данных и бизнес-аналитика
С помощью записной книжки можно принимать неструктурированные или частично структурированные данные, а затем определять для них схему. Затем эту схему можно использовать для создания модели в таких средствах, как Power BI. Это позволит бизнес-пользователям выполнять анализ данных в записной книжке.
Машинное обучение Spark
Вы можете использовать записную книжку для создания приложений машинного обучения с помощью MLlib (библиотеки машинного обучения на основе Spark).
Потоковая передача и анализ данных в режиме реального времени в Spark
Кластеры Spark в HDInsight обладают широкой поддержкой для создания решений для аналитики в режиме реального времени. Хотя Spark уже имеет соединители для приема данных из многих источников, таких как Kafka, Flume, X, ZeroMQ или TCP-сокеты, Spark в HDInsight добавляет поддержку приема данных из Центры событий Azure.
Создание записной книжки Jupyter
Чтобы создать записную книжку Jupyter Notebook на портале Azure, выполните указанные ниже действия.
На портале в разделе Панели мониторинга кластера выберите Jupyter Notebook. При появлении запроса введите учетные данные для входа в кластер.
Чтобы создать записную книжку, выберите Создать> > PySpark.
Будет создана и откроется записная книжка с именем Untitled (Untitled.pynb), в которой можно приступить к созданию заданий и выполнению запросов.