Поделиться через


Совместимость с Apache Hive

Область применения:флажок Databricks Runtime

Apache Spark SQL в Azure Databricks совместим с Apache Hive. Это также относится к возможности подключения хранилища метаданных, операциям сериализации-десериализации и определяемым пользователем функциям.

Сериализация-десериализация и определяемые пользователем функции

Сериализация-десериализация и определяемые пользователем функции основаны на Hive 1.2.1.

Возможность подключения хранилища метаданных

Дополнительные сведения о подключении Azure Databricks к хранилищу метаданных Hive с внешним размещением в хранилище метаданных Hive см. в разделе "Внешний хранилище метаданных Apache Hive".

Поддерживаемые функции Hive

Spark SQL поддерживает большинство функций Hive, таких как:

  • Инструкции запроса Hive, в том числе:
    • SELECT
    • GROUP BY
    • ORDER BY
    • CLUSTER BY
    • SORT BY
  • Все выражения Hive, в том числе:
    • Реляционные выражения (=, , ==, <>, <, >, >=, <= и т. д.)
    • Арифметические выражения (+, -, *, /, % и т. д.)
    • Логические выражения (AND, &>ИЛИ, ||и т. д.)
    • Конструкторы сложных типов
    • Математические выражения (sign, ln, cos и т. д.)
    • Строковые выражения (instr, length, printf и т. д.)
  • Пользовательские функции (UDF)
  • Определяемые пользователем агрегатные функции
  • Определяемые пользователем форматы сериализации
  • функции Window
  • Соединения
    • JOIN
    • {ЛЕВОЕ|ПРАВОЕ|ПОЛНОЕ} ВНЕШНЕЕ JOIN
    • ЛЕВАЯ ПОЛУ JOIN
    • КРЕСТ JOIN
  • Объединения
  • Вложенные запросы
    • SELECT col FROM (SELECT a + b AS col из t1) t2
  • Образец
  • Explain
  • Разделённые tables, включая динамическую вставку partition
  • Представления
  • Подавляющее большинство инструкций DDL, в том числе:
    • CREATE TABLE
    • CREATE TABLE AS SELECT
    • ALTER TABLE
  • Большинство типов данных Hive, в том числе:
    • TINYINT
    • SMALLINT
    • INT
    • BIGINT
    • BOOLEAN
    • FLOAT
    • DOUBLE
    • STRING
    • BINARY
    • TIMESTAMP
    • DATE
    • ARRAY<>
    • MAP<>
    • STRUCT<>

Неподдерживаемые функции Hive

В следующих разделах содержится list функций Hive, которые не поддерживаются в Spark SQL. Большинство этих функций редко используются в развертываниях Hive.

Основные функции Hive

  • Запись в сегментированный кластер table, созданный Hive
  • Обновления ACID с высокой степенью детализации

Функции, используемые только в Hive

  • Union type
  • Уникальный join
  • Column сбор статистических данных: Spark SQL на данный момент не выполняет сканирование для сбора статистики column и поддерживает только заполнение поля sizeInBytes в хранилище метаданных Hive.

Форматы входных и выходных данных Hive

  • Формат файла для CLI. Для передаваемых в CLI результатов Spark SQL поддерживает только TextOutputFormat.
  • Архив Hadoop

Оптимизация Hive

Несколько способов оптимизации Hive не поддерживаются в Spark. Некоторые из них (например, индексы) не так важны из-за того, что в Spark SQL вычислительная модель находится в памяти.

  • Индексы битовых карт на уровне блока и виртуальный columns (используемые для построения индексов).
  • Автоматическое определение числа модулей сжатия для операторов join и groupby. В Spark SQL необходимо управлять степенью параллелизма после перемешивания с помощью SET spark.sql.shuffle.partitions=[num_tasks];.
  • Флаг отклонения данных. Этот флаг отличается в Spark SQL и Hive.
  • STREAMTABLE подсказка в join: Spark SQL не следует подсказке STREAMTABLE.
  • Слияние нескольких маленьких файлов в результатах запроса. Если в Hive выходные данные запроса содержат несколько маленьких файлов, при необходимости их можно объединить в меньшее число больших файлов, чтобы избежать перегрузки метаданных HDFS. В Spark SQL такая возможность не поддерживается.