如何在複製活動中設定 Amazon RDS for SQL Server
本文概述如何在資料管線中使用複製活動,從 Amazon RDS for SQL Server 複製資料。
支援的設定
對於複製活動下每個索引標籤的組態,請分別參閱下列各節。
一般
請參閱<[一般] 設定>指導,來設定 [一般] 設定索引標籤。
來源
對於 Amazon RDS for SQL Server,複製活動的 [來源] 索引標籤中支援下列屬性。
以下是必要的屬性:
資料存放區類型:選取 [外部]。
連線:從連線清單中選取 Amazon RDS for SQL Server 連線。 如果連線不存在,請選取 [新增] 來建立新的 Amazon RDS for SQL Server 連線。
連線類型:選取 [Amazon RDS for SQL Server]。
使用查詢:指定讀取資料的方式。 可以選擇 [資料表]、[查詢] 或 [預存程序]。 下列清單描述每個設定的組態:
資料表:從指定的資料表讀取資料。 從下拉式清單中選取來源資料表,或選取 [編輯] 以手動輸入。
查詢:指定自訂 SQL 查詢來讀取資料。 例如
select * from MyTable
。 或選取鉛筆圖示以在程式碼編輯器中編輯。預存程序:使用從來源資料表讀取資料的預存程序名稱。 最後一個 SQL 陳述式必須是預存程序中的 SELECT 陳述式。
預存程序名稱:選取預存程序,或在選取 [編輯] 以從源資料表讀取資料時手動指定預存程序名稱。
預存程序參數:指定預存程序參數的值。 允許的值為名稱或值組。 參數的名稱和大小寫必須符合預存程序參數的名稱和大小寫。 可以選取 [匯入參數] 以取得預存程序參數。
在 [進階] 下,可以指定下列欄位:
查詢逾時 (分鐘):指定查詢命令執行的逾時,預設值為 120 分鐘。 如果為此屬性設定參數,允許的值為時間範圍,例如 "02:00:00" (120 分鐘)。
隔離等級:指定 SQL 來源的異動鎖定行為。 允許的值包括:[讀取認可]、[讀取未認可]、[可重複讀取]、[可序列化]、[快照]。 如果未指定,則會使用資料庫的預設隔離等級。 如需詳細資料,請參閱<IsolationLevel 列舉>。
分割選項:指定用來從 Amazon RDS for SQL Server 載入資料的資料分割選項。 允許的值為:[無] (預設值)、[資料表的實體分割] 及 [動態範圍]。 啟用分割選項後 (即不是 [無]),從 Amazon RDS for SQL Server 同時載入資料的平行處理程度,將由 [複製活動設定] 索引標籤中的 [複製平行處理原則的程度] 控制。
無:選擇此設定不要使用分割。
資料表的實體分割:使用實體分割時,分割資料行和機制會根據實體資料表定義自動決定。
動態範圍:使用已啟用平行的查詢時,需要定界分割參數 (
?DfDynamicRangePartitionCondition
)。 範例查詢:SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition
。分割資料行名稱:以整數類型或日期/日期時間類型 (
int
、smallint
、bigint
、date
、smalldatetime
、datetime
、datetime2
或datetimeoffset
) 指定來源資料行的名稱,供平行複製的定界分割使用。 如果未指定,則會自動偵測資料表的索引或主索引鍵作為分割資料行。如果您使用查詢來取出來源資料,請在 WHERE 子句中加上
?DfDynamicRangePartitionCondition
。 如需範例,請參閱從 SQL 資料庫平行複製一節。分割上限:分割區範圍分割的分割資料行最大值。 這個值用於決定分割區的跨距,而不是用於篩選資料表中的資料列。 資料表或查詢結果中的所有資料列都會進行分割和複製。 如果未指定,複製活動會自動偵測該值。 如需範例,請參閱從 SQL 資料庫平行複製一節。
分割下限:分割區範圍分割的分割資料行最小值。 這個值用於決定分割區的跨距,而不是用於篩選資料表中的資料列。 資料表或查詢結果中的所有資料列都會進行分割和複製。 如果未指定,複製活動會自動偵測該值。 如需範例,請參閱從 SQL 資料庫平行複製一節。
其他資料行:新增其他資料行來儲存來源檔案的相對路徑或靜態值。 後者支援運算式。
請注意下列幾點:
- 如果已為來源指定查詢,複製活動就會針對 Amazon RDS for SQL Server 來源執行此查詢來取得資料。 如果預存程序接受參數,也可以藉由指定預存程序名稱和預存程序參數來指定預存程序。
- 在來源中使用預存程序來擷取資料時,請注意,如果您的預存程序設計為在傳入不同的參數值時傳回不同的結構描述,在從 UI 匯入結構描述,或使用自動資料表建立將資料複製到 SQL 資料庫時,您可能遇到失敗,或看到非預期的結果。
對應
對於 [對應] 索引標籤組態,請參閱<在 [對應] 索引標籤下設定對應>。
設定
對於 [設定] 索引標籤組態,請參閱<在 [設定] 索引標籤下進行其他設定>。
從 SQL 資料庫平行複製
複製活動中 Amazon RDS for SQL Server 連接器提供內建的資料分割,以平行方式複製資料。 您可以在複製活動的 [來源] 索引標籤上找到資料分割選項。
當您啟用分割複本時,複製活動會平行查詢 Amazon RDS for SQL Server 來源,以依分割區來載入資料。 平行程度由 [複製活動設定] 索引標籤中的 [複製平行處理原則的程度] 設定所控制。例如,如果將 [複製平行處理原則的程度] 設定為四,服務會根據指定的分割選項和設定同時產生和執行四個查詢,而每個查詢都會從 Amazon RDS for SQL Server 擷取部分資料。
建議您啟用平行複製與資料分割,特別是從 Amazon RDS for SQL Server 載入大量資料時。 以下針對各種情節的建議設定。 將資料複製到以檔案為基礎的資料存放區時,建議分成多個檔案來寫入資料夾 (僅指定資料夾名稱),這樣效能會比寫入單一檔案更好。
案例 | 建議的設定 |
---|---|
使用實體分割區從大型資料表完整載入。 | 分割選項:資料表的實體分割區。 在執行期間,服務會自動偵測實體分割區,並依分割區複製資料。 若要檢查您的資料表是否有實體分割區,您可以參考此查詢。 |
從大型資料表完整載入,不含實體分割區,同時在資料分割時包含整數或日期時間資料行。 | 分割選項:動態範圍分割。 分割資料行 (選用):指定用來分割資料的資料行。 如果未指定,則會使用主索引鍵資料行。 分割區上限和分割區下限 (選用):指定是否要決定分割區跨距。 這不適用於篩選資料表中的資料列,資料表中的所有資料列都會分割並複製。 如果未指定,複製活動會自動偵測值,而且可能需要很長的時間,視 MIN 和 MAX 值而定。 建議提供上限和下限。 例如,如果您的分割區資料行「識別碼」具有範圍 1 到 100 之間的值,而您將下限設定為 20、上限設定為 80,且平行複製為 4,則服務會分別依 4 個分割區擷取資料 - 範圍中的識別碼分別為 <=20、[21, 50]、[51, 80] 和 >=81。 |
使用自訂查詢載入大量資料,不使用實體分割區,同時包含整數或日期/日期時間資料行用於資料分割。 | 分割選項:動態範圍分割。 查詢: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause> 。分割資料行:指定用來分割資料的資料行。 分割區上限和分割區下限 (選用):指定是否要決定分割區跨距。 這不適用於篩選資料表中的資料列,查詢結果中的所有資料列都會分割並複製。 如果未指定,複製活動會自動偵測該值。 例如,如果您的分割區資料行「識別碼」具有範圍 1 到 100 之間的值,而您將下限設定為 20、上限設定為 80,且平行複製為 4,則服務會分別依 4 個分割區擷取資料 - 範圍中的識別碼分別為 <=20、[21, 50]、[51, 80] 和 >=81。 以下是不同案例的更多範例查詢: • 查詢整個資料表: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition • 在具有資料行選取範圍和其他 WHERE 子句篩選條件的資料表中查詢: SELECT <column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause> • 使用子查詢進行查詢: SELECT <column_list> FROM (<your_sub_query>) AS T WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause> • 在子查詢中使用分割區進行查詢: SELECT <column_list> FROM (SELECT <your_sub_query_column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition) AS T |
使用分割區選項載入資料的最佳做法:
- 選擇獨特的資料行作為分割資料行 (例如主索引鍵或唯一索引鍵) 以避免資料扭曲。
- 如果資料表有內建分割區,請使用分割選項 [資料表的實體分割],以獲得更佳的效能。
用來檢查實體分割區的範例查詢
SELECT DISTINCT s.name AS SchemaName, t.name AS TableName, pf.name AS PartitionFunctionName, c.name AS ColumnName, iif(pf.name is null, 'no', 'yes') AS HasPartition
FROM sys.tables AS t
LEFT JOIN sys.objects AS o ON t.object_id = o.object_id
LEFT JOIN sys.schemas AS s ON o.schema_id = s.schema_id
LEFT JOIN sys.indexes AS i ON t.object_id = i.object_id
LEFT JOIN sys.index_columns AS ic ON ic.partition_ordinal > 0 AND ic.index_id = i.index_id AND ic.object_id = t.object_id
LEFT JOIN sys.columns AS c ON c.object_id = ic.object_id AND c.column_id = ic.column_id
LEFT JOIN sys.partition_schemes ps ON i.data_space_id = ps.data_space_id
LEFT JOIN sys.partition_functions pf ON pf.function_id = ps.function_id
WHERE s.name='[your schema]' AND t.name = '[your table name]'
如果資料表具有實體分割區,您會看到“HasPartition” 顯示為 “yes”,如下所示。
資料表摘要
如需有關 Amazon RDS for SQL Server 複製活動摘要和詳細資訊,請參閱下表。
來源資訊
名稱 | 描述 | 值 | 必要 | JSON 指令碼屬性 |
---|---|---|---|---|
資料存放區類型 | 資料存放區類型。 | 外部 | Yes | / |
[連接] | 您與來源資料存放區的連線。 | <您的連線> | Yes | connection |
連線類型 | 您的連線類型。 選取 [Amazon RDS for SQL Server]。 | Amazon RDS for SQL Server | Yes | / |
使用查詢 | 用於讀取資料的自訂 SQL 查詢。 | • 資料表 • 查詢 • 預存程序 |
Yes | / |
Table | 您的來源資料表。 | <目的地資料表的名稱> | No | 結構描述 table |
查詢 | 用於讀取資料的自訂 SQL 查詢。 | <您的查詢> | No | sqlReaderQuery |
預存程序名稱 | 此屬性是從來源資料表讀取資料的預存程序名稱。 最後一個 SQL 陳述式必須是預存程序中的 SELECT 陳述式。 | <預存程序名稱> | No | sqlReaderStoredProcedureName |
預存程序參數 | 這些是預存程序的參數。 允許的值為名稱或值組。 參數的名稱和大小寫必須符合預存程序參數的名稱和大小寫。 | <名稱或值組> | No | storedProcedureParameters |
查詢逾時 | 查詢命令執行的逾時。 | 時間範圍 (預設值為 120 分鐘) |
不必要 | queryTimeout |
隔離等級 | 指定 SQL 來源的異動鎖定行為。 | • 讀取認可 • 讀取未認可 • 可重複讀取 • 可序列化 • 快照 |
No | isolationLevel: • ReadCommitted • ReadUncommitted • RepeatableRead • 可序列化 • 快照 |
分割選項 | 指定用來從 Amazon RDS for SQL Server 載入資料的資料分割選項。 | • 無 (預設值) • 資料表實體分割 • 動態範圍 |
No | partitionOption: • 無 (預設值) • PhysicalPartitionsOfTable • DynamicRange |
分割資料行名稱 | 整數或日期/日期時間類型 (int 、smallint 、bigint 、date 、smalldatetime 、datetime 、datetime2 或 datetimeoffset ) 的來源資料行的名稱,供平行複製的定界分割使用。 如果未指定,則會自動偵測資料表的索引或主索引鍵作為分割資料行。 如果您使用查詢來取出來源資料,請在 WHERE 子句中加上 ?DfDynamicRangePartitionCondition 。 |
<您的分割資料行名稱> | No | partitionColumnName |
分割上限 | 分割區範圍分割的分割區資料行最大值。 這個值用於決定分割區的跨距,而不是用於篩選資料表中的資料列。 資料表或查詢結果中的所有資料列都會進行分割和複製。 如果未指定,複製活動會自動偵測該值。 | <您的分割上限> | No | partitionUpperBound |
分割下限 | 分割區範圍分割的分割區資料行最小值。 這個值用於決定分割區的跨距,而不是用於篩選資料表中的資料列。 資料表或查詢結果中的所有資料列都會進行分割和複製。 如果未指定,複製活動會自動偵測該值。 | <您的分割下限> | No | partitionLowerBound |
其他資料行 | 新增其他資料行來儲存來源檔案的相對路徑或靜態值。 後者支援運算式。 | • 名稱 • 值 |
No | additionalColumns: • 名稱 • 值 |