Что такое Apache Flink® в Azure HDInsight в AKS? (предварительная версия)

Статья
09/20/2024

Важный

Azure HDInsight на AKS завершил своё действие 31 января 2025 г. Узнайте больше из этого объявления.

Необходимо перенести рабочие нагрузки в Microsoft Fabric или эквивалентный продукт Azure, чтобы избежать резкого завершения рабочих нагрузок.

Важный

Эта функция сейчас доступна в предварительной версии. Дополнительные условия использования для предварительных версий Microsoft Azure включают дополнительные юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в Azure HDInsight в предварительной версии AKS. Для вопросов или предложений функций отправьте запрос на AskHDInsight с подробными сведениями и следуйте за дополнительными обновлениями в Azure HDInsight Community.

Apache Flink — это платформа и подсистема распределенной обработки для вычислений с отслеживанием состояния по несвязанным и привязанным потокам данных. Flink был разработан для работы во всех распространённых средах кластеров, выполнения вычислений и приложений для потоковой передачи с сохранением состояния на скорости оперативной памяти и в любом масштабе. Приложения параллелизуются на, возможно, тысячи задач, которые распределяются и одновременно выполняются в кластере. Поэтому приложение может использовать неограниченное количество виртуальных ЦП, основной памяти, дискового и сетевого ввода-вывода. Кроме того, Flink легко поддерживает большое состояние приложения. Его асинхронный и инкрементный алгоритм контрольных точек обеспечивает минимальное влияние на задержки обработки при гарантии точной согласованности состояния.

Apache Flink — это масштабируемый модуль аналитики для потоковой обработки.

Ниже приведены некоторые ключевые функции, которые предлагает Flink:

Операции с привязанными и несвязанными потоками
Производительность при работе с памятью
Возможность потоковой передачи и пакетных вычислений
Низкая задержка, операции высокой пропускной способности
Обработка ровно один раз
Высокий уровень доступности
Состояние и отказоустойчивость
Полностью совместим с экосистемой Hadoop
Унифицированные API SQL для потокового и пакетного пакетов

архитектурную схему Flink.

Почему Apache Flink?

Apache Flink — отличный выбор для разработки и запуска различных типов приложений из-за его обширного набора функций. Функции Flink включают поддержку потоковой и пакетной обработки, сложное управление состоянием, семантику обработки событий во времени и гарантии точной единовременной согласованности для управления состоянием. Flink не имеет единой точки сбоя. Способность Flink масштабироваться до тысяч ядер и терабайтов состояния приложения доказана. Он обеспечивает высокую пропускную способность и низкую задержку, а также поддерживает одни из самых требовательных приложений потоковой обработки в мире.

обнаружение мошенничества: Flink можно использовать для обнаружения мошеннических транзакций или действий в режиме реального времени путем применения сложных правил и моделей машинного обучения для потоковой передачи данных.
обнаружение аномалий: Flink можно использовать для выявления выбросов или аномальных паттернов в потоковых данных, таких как показатели датчиков, сетевой трафик или поведение пользователя.
оповещения на основе правил: Flink можно использовать для активации оповещений или уведомлений на основе предопределенных условий или пороговых значений потоковых данных, таких как температура, давление или цены на акции.
мониторинг бизнес-процессов: Flink можно использовать для отслеживания и анализа состояния и производительности бизнес-процессов или рабочих процессов в режиме реального времени, таких как выполнение заказов, доставка или обслуживание клиентов.
веб-приложение (социальная сеть): Flink можно использовать для работы веб-приложений, требующих обработки данных, созданных пользователем в реальном времени, таких как сообщения, лайки, комментарии или рекомендации.

Узнайте больше о распространенных вариантах использования, описанных в случаях использования Apache Flink

Кластеры Apache Flink в HDInsight в AKS — это полностью управляемая служба. Ниже перечислены преимущества создания кластера Flink в HDInsight в AKS.

Особенность	Описание
Облегчение создания	Вы можете создать новый кластер Flink в HDInsight в минутах с помощью портала Azure, Azure PowerShell или пакета SDK. См. начало работы с кластером Apache Flink в HDInsight в AKS.
Простота использования	Кластеры Flink в HDInsight на AKS включают управление конфигурацией через портал и масштабирование. Помимо этого с API управления заданиями, вы используете REST API или портал Azure для управления заданиями.
REST API	Кластеры Flink в HDInsight на AKS включают API управления заданиями, метод отправки заданий Flink через REST API для удаленной отправки и мониторинга заданий на портале Azure.
Тип развертывания	Flink может выполнять приложения в режиме сеанса или в режиме приложения. В настоящее время HDInsight в AKS поддерживает только кластеры сеансов. В кластере сеансов можно выполнять несколько заданий Flink. Режим приложения включён в дорожную карту для HDInsight на кластерах AKS.
Поддержка хранилища метаданных	Кластеры Flink в HDInsight в AKS могут поддерживать каталоги с хранилище метаданных Hive в разных открытых форматах файлов с удаленными контрольными точками в Azure Data Lake Storage 2-го поколения.
Поддержка службы хранилища Azure	Кластеры Flink в HDInsight могут использовать Azure Data Lake Storage 2-го поколения в качестве приемника файлов. Дополнительные сведения о Data Lake Storage 2-го поколения см. в Azure Data Lake Storage 2-го поколения.
Интеграция со службами Azure	Кластер Flink в HDInsight на AKS поставляется с интеграцией с Kafka, а также с Azure Event Hubs и Azure HDInsight. Вы можете создавать приложения потоковой передачи с помощью Центров событий или HDInsight.
Приспособляемость	HDInsight в AKS позволяет масштабировать узлы кластера Flink на основе расписания с помощью функции автомасштабирования. См. автоматическое масштабирование Azure HDInsight в кластерах AKS.
Механизм управления состоянием	HDInsight в AKS использует RocksDB в качестве stateBackend по умолчанию. RocksDB — это встраиваемое хранилище сохраняемых значений ключей для быстрого хранения.
Контрольные точки	Ведение контрольных точек включено в HDInsight на кластерах AKS по умолчанию. Параметры по умолчанию в HDInsight в AKS поддерживают последние пять контрольных точек в постоянном хранилище. В случае сбоя задания задание может быть перезапущено с последней контрольной точки.
Добавочные контрольные точки	RocksDB поддерживает добавочные контрольные точки. Мы рекомендуем использовать добавочные контрольные точки для большого состояния, необходимо включить эту функцию вручную. Установка значения по умолчанию в `flink-conf.yaml: state.backend.incremental: true` включает инкрементные контрольные точки, если только приложение не переопределяет этот параметр в коде. Это утверждение является верным по умолчанию. Можно также настроить это значение непосредственно в коде (переопределяет конфигурацию по умолчанию) EmbeddedRocksDBStateBackend` backend = new `EmbeddedRocksDBStateBackend(true);. По умолчанию мы сохраняем последние пять контрольных точек в настроенном каталоге контрольных точек. Это значение можно изменить, изменив конфигурацию в разделе управления конфигурацией `state.checkpoints.num-retained: 5`

Кластеры Apache Flink в HDInsight в AKS включают следующие компоненты, они доступны в кластерах по умолчанию.

Обратитесь к дорожной карте, чтобы узнать, что ожидается скоро!

Управление заданиями Apache Flink

Flink планирует задания с помощью трех распределенных компонентов, диспетчера заданий, диспетчера задач и клиента заданий, которые задаются в шаблоне Leader-Follower.

задание Flink: задание или программа Flink состоит из нескольких задач. Задачи — это базовая единица выполнения в Flink. Каждая задача Flink имеет несколько экземпляров в зависимости от уровня параллелизма, и каждый экземпляр выполняется в TaskManager.

диспетчер заданий: диспетчер заданий выступает в качестве планировщика и планирует задачи в диспетчерах задач.

диспетчер задач: диспетчеры задач поставляются с одним или несколькими слотами для параллельного выполнения задач.

клиент задания: клиент задания взаимодействует с диспетчером заданий для отправки Flink-заданий

Веб-интерфейс Flink: Flink располагает веб-интерфейсом для проверки, мониторинга и отладки запущенных приложений.

диаграмма процесса Flink, показывающая, как работают задача, диспетчер задач, менеджер задач и клиент задач.

Ссылка

веб-сайт Apache Flink
Apache, Apache Kafka, Kafka, Apache Flink, Flink и другие названия связанных с ними проектов с открытым исходным кодом являются товарными знаками Apache Software Foundation (ASF).

Поделиться через

Что такое Apache Flink® в Azure HDInsight в AKS? (предварительная версия)

Почему Apache Flink?

Управление заданиями Apache Flink

Ссылка

Дополнительные ресурсы