Использование каталога Hive с Apache Flink® на HDInsight в AKS

Статья
09/20/2024

Важный

Azure HDInsight в AKS выведен из эксплуатации 31 января 2025 г. Узнайте больше об этом объявлении.

Необходимо перенести рабочие нагрузки в Microsoft Fabric или эквивалентный продукт Azure, чтобы избежать резкого завершения рабочих нагрузок.

Важно

Эта функция сейчас доступна в предварительной версии. Дополнительные условия использования для предварительных версий Microsoft Azure включают дополнительные юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в Azure HDInsight в предварительной версии AKS. Для вопросов или предложений функций отправьте запрос на AskHDInsight с подробными сведениями и следите за нашими новостями в Azure HDInsight Community.

В этом примере метахранилище Hive используется в роли постоянного каталога в каталоге Hive от Apache Flink. Мы используем эту функцию для хранения метаданных таблицы Kafka и таблицы MySQL в Flink между сеансами. Flink использует таблицу Kafka, зарегистрированную в каталоге Hive в качестве источника, выполняет некоторые поисковые запросы и записывает результат в базу данных MySQL.

Необходимые условия

кластер Apache Flink на HDInsight на AKS с хранилищем метаданных Hive 3.1.2
кластер Apache Kafka в HDInsight
- Необходимо убедиться, что настройки сети завершены, как описано в разделе Using Kafka; это необходимо для того, чтобы HDInsight в сети AKS и кластерах HDInsight находились в той же виртуальной сети.
MySQL 8.0.33

Apache Hive в Apache Flink

Flink предлагает двойную интеграцию с Hive.

Первым шагом является использование хранилища метаданных Hive (HMS) в качестве постоянного каталога совместно с HiveCatalog от Flink для хранения специфичных для Flink метаданных на протяжении сеансов.
- Например, пользователи могут хранить свои таблицы Kafka или ElasticSearch в хранилище метаданных Hive с помощью HiveCatalog и повторно использовать их позже в запросах SQL.
Второй — предложить Flink в качестве альтернативного механизма для чтения и записи таблиц Hive.
HiveCatalog предназначен для обеспечения совместимости с существующими установками Hive. Вам не нужно изменять существующее хранилище метаданных Hive или изменять размещение данных или секционирование таблиц.

Дополнительные сведения см. в Apache Hive

Подготовка среды

Создание кластера Apache Flink с помощью HMS

Давайте создадим кластер Apache Flink с HMS на портале Azure. Вы можете обратиться к подробным инструкциям по созданию кластера Flink в .

После создания кластера проверьте, запущен ли HMS на стороне AKS.

Подготовьте данные транзакций заказов пользователей в теме Kafka на HDInsight.

Скачайте jar-файл клиента kafka с помощью следующей команды:

wget https://archive.apache.org/dist/kafka/3.2.0/kafka_2.12-3.2.0.tgz

Распакуйте tar-файл с помощью

tar -xvf kafka_2.12-3.2.0.tgz

Создай сообщения в разделе Kafka.

Другие команды:

Заметка

Вам потребуется заменить bootstrap-server на собственное имя узла или IP-адрес брокеров Kafka.

--- delete topic
./kafka-topics.sh --delete --topic user_orders --bootstrap-server wn0-contsk:9092

--- create topic
./kafka-topics.sh --create --replication-factor 2 --partitions 3 --topic user_orders  --bootstrap-server wn0-contsk:9092

--- produce topic
./kafka-console-producer.sh --bootstrap-server wn0-contsk:9092 --topic user_orders

--- consumer topic
./kafka-console-consumer.sh --bootstrap-server wn0-contsk:9092 --topic user_orders --from-beginning

Подготовка основных данных заказов пользователей в MySQL на Azure

Тестирование базы данных:

Подготовка таблицы заказа:

mysql> use mydb
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A

mysql> CREATE TABLE orders (
  order_id INTEGER NOT NULL AUTO_INCREMENT PRIMARY KEY,
  order_date DATETIME NOT NULL,
  customer_id INTEGER NOT NULL,
  customer_name VARCHAR(255) NOT NULL,
  price DECIMAL(10, 5) NOT NULL,
  product_id INTEGER NOT NULL,
  order_status BOOLEAN NOT NULL
) AUTO_INCREMENT = 10001;


mysql> INSERT INTO orders
VALUES (default, '2023-07-16 10:08:22','0001', 'Jark', 50.00, 102, false),
       (default, '2023-07-16 10:11:09','0002', 'Sally', 15.00, 105, false),
       (default, '2023-07-16 10:11:09','000', 'Sally', 25.00, 105, false),
       (default, '2023-07-16 10:11:09','0004', 'Sally', 45.00, 105, false),
       (default, '2023-07-16 10:11:09','0005', 'Sally', 35.00, 105, false),
       (default, '2023-07-16 12:00:30','0006', 'Edward', 90.00, 106, false);

mysql> select * from orders;
+----------+---------------------+-------------+---------------+----------+------------+--------------+
| order_id | order_date          | customer_id | customer_name | price    | product_id | order_status |
+----------+---------------------+-------------+---------------+----------+------------+--------------+
|    10001 | 2023-07-16 10:08:22 |           1 | Jark          | 50.00000 |        102 |            0 |
|    10002 | 2023-07-16 10:11:09 |           2 | Sally         | 15.00000 |        105 |            0 |
|    10003 | 2023-07-16 10:11:09 |           3 | Sally         | 25.00000 |        105 |            0 |
|    10004 | 2023-07-16 10:11:09 |           4 | Sally         | 45.00000 |        105 |            0 |
|    10005 | 2023-07-16 10:11:09 |           5 | Sally         | 35.00000 |        105 |            0 |
|    10006 | 2023-07-16 12:00:30 |           6 | Edward        | 90.00000 |        106 |            0 |
+----------+---------------------+-------------+---------------+----------+------------+--------------+
6 rows in set (0.22 sec)

mysql> desc orders;
+---------------+---------------+------+-----+---------+----------------+
| Field         | Type          | Null | Key | Default | Extra          |
+---------------+---------------+------+-----+---------+----------------+
| order_id      | int           | NO   | PRI | NULL    | auto_increment |
| order_date    | datetime      | NO   |     | NULL    |                |
| customer_id   | int           | NO   |     | NULL    |                |
| customer_name | varchar(255)  | NO   |     | NULL    |                |
| price         | decimal(10,5) | NO   |     | NULL    |                |
| product_id    | int           | NO   |     | NULL    |                |
| order_status  | tinyint(1)    | NO   |     | NULL    |                |
+---------------+---------------+------+-----+---------+----------------+
7 rows in set (0.22 sec)

Используйте SSH для загрузки необходимых коннекторов Kafka и архивов базы данных MySQL.

Заметка

Скачайте правильный jar-файл в соответствии с нашей версией HDInsight Kafka и версией MySQL.

wget https://repo1.maven.org/maven2/org/apache/flink/flink-connector-jdbc/3.1.0-1.17/flink-connector-jdbc-3.1.0-1.17.jar
wget https://repo1.maven.org/maven2/com/mysql/mysql-connector-j/8.0.33/mysql-connector-j-8.0.33.jar
wget https://repo1.maven.org/maven2/org/apache/kafka/kafka-clients/3.2.0/kafka-clients-3.2.0.jar
wget https://repo1.maven.org/maven2/org/apache/flink/flink-connector-kafka/1.17.0/flink-connector-kafka-1.17.0.jar

Перемещение JAR файла планировщика

Переместите файл flink-table-planner_2.12-1.17.0-....jar из /opt пода webssh в /lib и переместите файл flink-table-planner-loader1.17.0-....jar из /lib в /opt/flink-webssh/opt/. Дополнительные сведения см. в проблеме , под номером. Выполните следующие действия, чтобы переместить файл планировщика в формате jar.

mv /opt/flink-webssh/lib/flink-table-planner-loader-1.17.0-*.*.*.*.jar /opt/flink-webssh/opt/
mv /opt/flink-webssh/opt/flink-table-planner_2.12-1.17.0-*.*.*.*.jar /opt/flink-webssh/lib/

Заметка

Дополнительное перемещение jar-файла планировщика требуется только при использовании диалекта Hive или конечной точки HiveServer2. Однако это рекомендуемая настройка для интеграции Hive.

Ратификация

Подключение к Flink SQL с помощью bin/sql-client.sh

bin/sql-client.sh -j flink-connector-jdbc-3.1.0-1.17.jar -j mysql-connector-j-8.0.33.jar -j kafka-clients-3.2.0.jar -j flink-connector-kafka-1.17.0.jar

Создание каталога Hive и подключение к каталогу hive в Flink SQL

Заметка

Так как мы уже используем кластер Flink с хранилищем метаданных Hive, вам не нужно выполнять дополнительные конфигурации.

CREATE CATALOG myhive WITH (
    'type' = 'hive'
);

USE CATALOG myhive;

Создание таблицы Kafka в Apache Flink SQL

CREATE TABLE kafka_user_orders (
  `user_id` BIGINT,
  `user_name` STRING,
  `user_email` STRING,
  `order_date` TIMESTAMP(3) METADATA FROM 'timestamp',
  `price` DECIMAL(10,5),
  `product_id` BIGINT,
  `order_status` BOOLEAN
) WITH (
    'connector' = 'kafka',  
    'topic' = 'user_orders',  
    'scan.startup.mode' = 'latest-offset',  
    'properties.bootstrap.servers' = '10.0.0.38:9092,10.0.0.39:9092,10.0.0.40:9092', 
    'format' = 'json' 
);

select * from kafka_user_orders;

Создание таблицы MySQL в Apache Flink SQL

CREATE TABLE mysql_user_orders (
  `order_id` INT,
  `order_date` TIMESTAMP,
  `customer_id` INT,
  `customer_name` STRING,
  `price` DECIMAL(10,5),
  `product_id` INT,
  `order_status` BOOLEAN
) WITH (
  'connector' = 'jdbc',
  'url' = 'jdbc:mysql://<servername>.mysql.database.azure.com/mydb',
  'table-name' = 'orders',
  'username' = '<username>',
  'password' = '<password>'
);

select * from mysql_user_orders;

Проверка таблиц, зарегистрированных в вышестоящем каталоге Hive с использованием Flink SQL.

Переместить информацию о заказах пользовательских транзакций в основную таблицу заказов в MySQL с использованием Flink SQL

INSERT INTO mysql_user_orders (order_date, customer_id, customer_name, price, product_id, order_status)
 SELECT order_date, CAST(user_id AS INT), user_name, price, CAST(product_id AS INT), order_status
 FROM kafka_user_orders;

Проверьте, добавлены ли данные транзакций пользователей из Kafka в главную таблицу заказов в MySQL с помощью Azure Cloud Shell.

Создание трех дополнительных заказов пользователей на Kafka

sshuser@hn0-contsk:~$ /usr/hdp/current/kafka-broker/bin/kafka-console-producer.sh --bootstrap-server wn0-contsk:9092 --topic user_orders
>{"user_id": null,"user_name": "Lucy","user_email": "user8@example.com","order_date": "07/17/2023 21:33:44","price": "90.00000","product_id": "102","order_status": false}
>{"user_id": "0009","user_name": "Zark","user_email": "user9@example.com","order_date": "07/17/2023 21:52:07","price": "80.00000","product_id": "103","order_status": true}
>{"user_id": "0010","user_name": "Alex","user_email": "user10@example.com","order_date": "07/17/2023 21:52:07","price": "70.00000","product_id": "104","order_status": true}

Проверка данных таблицы Kafka в Flink SQL

Flink SQL> select * from kafka_user_orders;

Вставьте `product_id=104` в таблицу заказов в MySQL на Flink SQL

INSERT INTO mysql_user_orders (order_date, customer_id, customer_name, price, product_id, order_status)
SELECT order_date, CAST(user_id AS INT), user_name, price, CAST(product_id AS INT), order_status
FROM kafka_user_orders where product_id = 104;

Проверка добавления записи `product_id = 104` в таблице заказов в MySQL в Azure Cloud Shell

Ссылка

Apache Hive
Apache, Apache Hive, Hive, Apache Flink, Flink и связанные имена проектов с открытым исходным кодом являются товарными знаками Apache Software Foundation (ASF).

Поделиться через

Использование каталога Hive с Apache Flink® на HDInsight в AKS

Необходимые условия

Apache Hive в Apache Flink

Подготовка среды

Создание кластера Apache Flink с помощью HMS

Подготовьте данные транзакций заказов пользователей в теме Kafka на HDInsight.

Подготовка основных данных заказов пользователей в MySQL на Azure

Используйте SSH для загрузки необходимых коннекторов Kafka и архивов базы данных MySQL.

Ратификация

Подключение к Flink SQL с помощью bin/sql-client.sh

Создание каталога Hive и подключение к каталогу hive в Flink SQL

Создание таблицы Kafka в Apache Flink SQL

Создание таблицы MySQL в Apache Flink SQL

Проверка таблиц, зарегистрированных в вышестоящем каталоге Hive с использованием Flink SQL.

Переместить информацию о заказах пользовательских транзакций в основную таблицу заказов в MySQL с использованием Flink SQL

Проверьте, добавлены ли данные транзакций пользователей из Kafka в главную таблицу заказов в MySQL с помощью Azure Cloud Shell.

Создание трех дополнительных заказов пользователей на Kafka

Проверка данных таблицы Kafka в Flink SQL

Вставьте `product_id=104` в таблицу заказов в MySQL на Flink SQL

Проверка добавления записи `product_id = 104` в таблице заказов в MySQL в Azure Cloud Shell

Ссылка

Дополнительные ресурсы

Поделиться через

Использование каталога Hive с Apache Flink® на HDInsight в AKS

Необходимые условия

Apache Hive в Apache Flink

Подготовка среды

Создание кластера Apache Flink с помощью HMS

Подготовьте данные транзакций заказов пользователей в теме Kafka на HDInsight.

Подготовка основных данных заказов пользователей в MySQL на Azure

Используйте SSH для загрузки необходимых коннекторов Kafka и архивов базы данных MySQL.

Ратификация

Подключение к Flink SQL с помощью bin/sql-client.sh

Создание каталога Hive и подключение к каталогу hive в Flink SQL

Создание таблицы Kafka в Apache Flink SQL

Создание таблицы MySQL в Apache Flink SQL

Проверка таблиц, зарегистрированных в вышестоящем каталоге Hive с использованием Flink SQL.

Переместить информацию о заказах пользовательских транзакций в основную таблицу заказов в MySQL с использованием Flink SQL

Проверьте, добавлены ли данные транзакций пользователей из Kafka в главную таблицу заказов в MySQL с помощью Azure Cloud Shell.

Создание трех дополнительных заказов пользователей на Kafka

Проверка данных таблицы Kafka в Flink SQL

Вставьте product_id=104 в таблицу заказов в MySQL на Flink SQL

Проверка добавления записи product_id = 104 в таблице заказов в MySQL в Azure Cloud Shell

Ссылка

Дополнительные ресурсы

Вставьте `product_id=104` в таблицу заказов в MySQL на Flink SQL

Проверка добавления записи `product_id = 104` в таблице заказов в MySQL в Azure Cloud Shell