Открытие записной книжки Jupyter Notebook в кластере HDInsight Spark

Завершено

После создания кластера HDInsight Spark можно выполнять интерактивные запросы и задания Spark SQL в кластере Apache Spark в Azure HDInsight. Для этого сначала необходимо создать записную книжку. Записная книжка — это интерактивный редактор, позволяющий инженерам данных и специалистам по обработке и анализу данных взаимодействовать с данными с помощью ряда языков. К ним относятся Python, SQL, Scala и другие. HDInsight поддерживает Jupyter, Zeppelin и Livy для взаимодействия с данными. Уровень взаимодействия зависит от вашей рабочей нагрузки.

Apache Spark в HDInsight поддерживает указанные ниже рабочие нагрузки.

Интерактивный анализ данных и бизнес-аналитика

С помощью записной книжки можно принимать неструктурированные или частично структурированные данные, а затем определять для них схему. Затем эту схему можно использовать для создания модели в таких средствах, как Power BI. Это позволит бизнес-пользователям выполнять анализ данных в записной книжке.

Машинное обучение Spark

Вы можете использовать записную книжку для создания приложений машинного обучения с помощью MLlib (библиотеки машинного обучения на основе Spark).

Потоковая передача и анализ данных в режиме реального времени в Spark

Кластеры Spark в HDInsight обладают широкой поддержкой для создания решений для аналитики в режиме реального времени. Хотя Spark уже имеет соединители для приема данных из многих источников, таких как Kafka, Flume, X, ZeroMQ или TCP-сокеты, Spark в HDInsight добавляет поддержку приема данных из Центры событий Azure.

Создание записной книжки Jupyter

Чтобы создать записную книжку Jupyter Notebook на портале Azure, выполните указанные ниже действия.

  1. На портале в разделе Панели мониторинга кластера выберите Jupyter Notebook. При появлении запроса введите учетные данные для входа в кластер.

    Выбор записной книжки Jupyter Notebook на портале Azure

  2. Чтобы создать записную книжку, выберите Создать> > PySpark.

    Снимок экрана: Jupyter Notebook

  3. Будет создана и откроется записная книжка с именем Untitled (Untitled.pynb), в которой можно приступить к созданию заданий и выполнению запросов.