共用方式為


SQL 資料類型規則

適用於:核取記號為「是」Databricks SQL 核取記號為「是」Databricks Runtime

Azure Databricks 使用數個規則來解決數據類型之間的衝突:

您也可以在許多類型之間明確轉換:

  • 轉換函 式會在大部分類型之間轉換,如果無法,則會傳回錯誤。
  • try_cast 函式 的運作方式類似 轉換函式,但在傳遞無效值時會傳回 NULL。
  • 使用提供的格式指示詞,在型別之間轉換其他 內建 函式。

類型升級

類型提升是將一種類型轉換成同一類型家族中包含原始類型所有可能值的另一種類型的過程。 因此,類型升級是安全的作業。 例如 TINYINT ,範圍從 -128127。 其所有可能的值都可以安全地提升為 INTEGER

類型優先順序清單

類型優先順序清單 定義指定數據類型的值是否可以隱含地升階為另一個數據類型。

資料類型 優先順序清單 (從最窄到最寬)
TINYINT TINYINT - SMALLINT ->> INT -> BIGINT -> DECIMAL -> FLOAT (1) -> DOUBLE
SMALLINT SMALLINT - INT ->> BIGINT -> DECIMAL -> FLOAT (1) -> DOUBLE
INT INT - BIGINT -> 十進制 ->> FLOAT (1) -> DOUBLE
BIGINT BIGINT - DECIMAL ->> FLOAT (1) -> DOUBLE
DECIMAL DECIMAL -> FLOAT (1) -> DOUBLE
FLOAT FLOAT (1) -> DOUBLE
DOUBLE DOUBLE
DATE DATE -> TIMESTAMP
TIMESTAMP timestamp
陣列 ARRAY (2)
二元的 BINARY
布爾 BOOLEAN
INTERVAL INTERVAL
地圖 地圖 (2)
字串 字串
結構 結構 (2)
變體 VARIANT
物件 物件 (3)

(1)略過最不常見的類型解析FLOAT,以避免失去精確度。

(2) 對於複雜類型,優先順序規則會以遞歸方式套用至其元件元素。

(3)OBJECT 只存在於 內 VARIANT

字串和 NULL

特殊規則適用於 STRING 與不具 NULL類型的 :

  • NULL 可以升階為任何其他類型。
  • STRING可以升階為BIGINT、、BINARYBOOLEANDATEDOUBLE、、 INTERVALTIMESTAMP。 如果無法將實際字串值轉換成 最不常見的 Azure Databricks 類型 ,就會引發運行時錯誤。 升階為 INTERVAL 字串值時,必須符合間隔單位。

類型優先順序圖表

這是優先順序階層的圖形化描述,結合 類型優先順序清單字串和 NUL 規則。

優先順序規則的圖形表示法

最不常見的類型解析

一組類型中最不常見的類型是從類型集合的所有元素 從 類型優先順序圖表觸達的最窄類型。

最不常見的類型解析是用來:

  • 決定是否可以使用較窄型別的自變數來叫用預期指定型別參數的函式。
  • 衍生函式的自變數類型,該函式預期多個參數的共用自變數類型,例如 聯合、中的 最少最大
  • 衍生運算子的操作數類型,例如算術運算或比較。
  • 衍生案例表達式表達式的結果類型。
  • 衍生數位對應建構函式的專案、索引鍵或實值型別。
  • 衍生 UNION、INTERSECT 或 EXCEPT set 運算符的結果類型。

如果最不常見的類型解析為 FLOAT,則會套用特殊規則。 如果任何參與型別是確切的數值類型 (TINYINT、 、 SMALLINTINTEGERBIGINTDECIMAL) ,則會推送最不常見的類型,DOUBLE以避免可能遺失數位。

當最不常見的類型是 STRING 定序會遵循 定序優先順序規則計算。

隱含的向下轉型和交叉傳播

Azure Databricks 只在函式和運算符調用時使用這些形式的隱式轉換,且只有在能夠明確無誤地判斷意圖時才會這樣做。

  • 隱含向下轉型

    隱含向下轉型會自動將較寬的類型轉換成較窄的類型,而不需要明確指定轉換。 向下轉換很方便,但如果實際值無法在窄型別中表示,則會帶來非預期運行時間錯誤的風險。

    向下轉換會套用 類型的反向優先清單

  • 隱含交叉傳播

    隱含交叉轉換會將某個類型系列的值轉換成另一個類型系列,而不需要明確指定轉換。

    Azure Databricks 支援下列來源的隱含交叉傳播:

    • 除了以外的任何簡單型 BINARY別, 到 STRING
    • STRING任何簡單型別的 。

在函式調用上轉型

假設有已解析的函式或運算符,下列規則會依照每個參數和自變數組所列的順序套用:

  • 如果支持的參數類型是自變數類型優先順序圖表一部分,Azure Databricks 會將自變數升階為該參數類型。

    在大部分情況下,函式描述會明確指出支援的型別或鏈結,例如「任何數值類型」。

    例如, sin(expr) 會運作, DOUBLE 但會接受任何數值。

  • 如果預期的參數類型是 , STRING 而且自變數是簡單的 Azure Databricks 類型,會將自變數交叉傳送 至字元串參數類型。

    例如, substr(str, start, len) 預期 strSTRING。 相反地,您可以傳遞數值或日期時間類型。

  • 如果自變數類型是 STRING ,且預期的參數類型是簡單的類型,Azure Databricks 會將字串自變數交叉傳送 至最廣支援的參數類型。

    例如, date_add(date, days) 預期 DATEINTEGER

    如果您使用兩date_add()個 s 叫STRING用 ,Azure Databricks 至 。

  • 如果函式預期數值類型,例如 INTEGER、 或 DATE 類型,但自變數是較一般類型,例如 DOUBLETIMESTAMP,Azure Databricks 會 隱含地將自變數向下轉型 為該參數類型。

    例如, date_add(date, days) 預期 和 DATEINTEGER

    如果您使用 date_add() 和叫用 ,Azure Databricks 會藉由移除時間元件和 TIMESTAMP 將 向下轉型BIGINTTIMESTAMP為 。DATEBIGINTINTEGER

  • 否則,Azure Databricks 會引發錯誤。

範例

聯合函式 只要它們共用 最小公共類型,就接受任何一組參數類型。

結果類型是自變數的最低通用類型。

-- The least common type of TINYINT and BIGINT is BIGINT
> SELECT typeof(coalesce(1Y, 1L, NULL));
  BIGINT

-- INTEGER and DATE do not share a precedence chain or support crosscasting in either direction.
> SELECT typeof(coalesce(1, DATE'2020-01-01'));
  Error: DATATYPE_MISMATCH.DATA_DIFF_TYPES

-- Both are ARRAYs and the elements have a least common type
> SELECT typeof(coalesce(ARRAY(1Y), ARRAY(1L)))
  ARRAY<BIGINT>

-- The least common type of INT and FLOAT is DOUBLE
> SELECT typeof(coalesce(1, 1F))
  DOUBLE

> SELECT typeof(coalesce(1L, 1F))
  DOUBLE

> SELECT typeof(coalesce(1BD, 1F))
  DOUBLE

-- The least common type between an INT and STRING is BIGINT
> SELECT typeof(coalesce(5, '6'));
  BIGINT

-- The least common type is a BIGINT, but the value is not BIGINT.
> SELECT coalesce('6.1', 5);
  Error: CAST_INVALID_INPUT

-- The least common type between a DECIMAL and a STRING is a DOUBLE
>  SELECT typeof(coalesce(1BD, '6'));
  DOUBLE

-- Two distinct explicit collations result in an error
>  SELECT collation(coalesce('hello' COLLATE UTF8_BINARY,
                             'world' COLLATE UNICODE));
  Error: COLLATION_MISMATCH.EXPLICIT

-- The resulting collation between two distinct implicit collations is indeterminate
>  SELECT collation(coalesce(c1, c2))
     FROM VALUES('hello' COLLATE UTF8_BINARY,
                 'world' COLLATE UNICODE) AS T(c1, c2);
  NULL

-- The resulting collation between a explicit and an implicit collations is the explicit collation.
> SELECT collation(coalesce(c1 COLLATE UTF8_BINARY, c2))
    FROM VALUES('hello',
                'world' COLLATE UNICODE) AS T(c1, c2);
  UTF8_BINARY

-- The resulting collation between an implicit and the default collation is the implicit collation.
> SELECT collation(coalesce(c1, ‘world’))
    FROM VALUES('hello' COLLATE UNICODE) AS T(c1, c2);
  UNICODE

-- The resulting collation between the default collation and the indeterminate collation is the default collation.
> SELECT collation(coalesce(coalesce(‘hello’ COLLATE UTF8_BINARY, ‘world’ COLLATE UNICODE), ‘world’));
  UTF8_BINARY

子字串函式 預期其字串自變數之類型為 STRING,並且開頭和長度參數的類型為 INTEGER

-- Promotion of TINYINT to INTEGER
> SELECT substring('hello', 1Y, 2);
 he

-- No casting
> SELECT substring('hello', 1, 2);
 he

-- Casting of a literal string
> SELECT substring('hello', '1', 2);
 he

-- Downcasting of a BIGINT to an INT
> SELECT substring('hello', 1L, 2);
 he

-- Crosscasting from STRING to INTEGER
> SELECT substring('hello', str, 2)
  FROM VALUES(CAST('1' AS STRING)) AS T(str);
 he

-- Crosscasting from INTEGER to STRING
> SELECT substring(12345, 2, 2);
 23

||(CONCAT) 允許隱含交叉傳送至字串。

-- A numeric is cast to STRING
> SELECT 'This is a numeric: ' || 5.4E10;
 This is a numeric: 5.4E10

-- A date is cast to STRING
> SELECT 'This is a date: ' || DATE'2021-11-30';
 This is a date: 2021-11-30

date_add可以透過 或來叫用TIMESTAMP,因為BIGINT隱含的下播。

> SELECT date_add(TIMESTAMP'2011-11-30 08:30:00', 5L);
 2011-12-05

date_add因為隱含的交叉傳播,所以可以使用 來叫用 STRING

> SELECT date_add('2011-11-30 08:30:00', '5');
  2011-12-05