使用 Azure Data Factory 或 Azure Synapse Analytics,從 Amazon RDS for Oracle 複製資料
適用於:Azure Data Factory Azure Synapse Analytics
提示
試用 Microsoft Fabric 中的 Data Factory,這是適用於企業的全方位分析解決方案。 Microsoft Fabric 涵蓋從資料移動到資料科學、即時分析、商業智慧和報告的所有項目。 了解如何免費開始新的試用 (部分機器翻譯)!
本文概述如何使用 Azure Data Factory 的複製活動,從 Amazon RDS for Oracle 資料庫複製資料。 本文是以複製活動概觀為依據。
支援的功能
此 Amazon RDS for Oracle 連接器支援下列功能:
支援的功能 | IR |
---|---|
複製活動 (來源/-) | (1) (2) |
查閱活動 | (1) (2) |
① Azure 整合執行階段 ② 自我裝載整合執行階段
如需複製活動所支援作為來源或接收器的資料存放區清單,請參閱支援的資料存放區表格。
具體而言,此 Amazon RDS for Oracle 連接器支援:
- 下列版本的 Amazon RDS for Oracle 資料庫:
- Amazon RDS for Oracle 19c R1 (19.1) 及更新版本
- Amazon RDS for Oracle 18c R1 (18.1) 及更新版本
- Amazon RDS for Oracle 12c R1 (12.1) 及更新版本
- Amazon RDS for Oracle 11g R1 (11.1) 及更新版本
- 從 Amazon RDS for Oracle 來源平行複製。 如需詳細資訊,請參閱從 Amazon RDS for Oracle 平行複製一節。
注意
不支援 Amazon RDS for Oracle Proxy 伺服器。
必要條件
如果您的資料存放區位於內部部署網路、Azure 虛擬網路或 Amazon 虛擬私人雲端中,則必須設定自我裝載整合執行階段以與其連線。
如果您的資料存放區是受控雲端資料服務,則可使用 Azure Integration Runtime。 如果只能存取防火牆規則中核准的 IP,您可以將 Azure Integration Runtime IP 新增至允許清單。
您也可以使用 Azure Data Factory 中的受控虛擬網路整合執行階段功能來存取內部部署網路,而不需要安裝和設定自我裝載整合執行階段。
如需 Data Factory 支援的網路安全性機制和選項的詳細資訊,請參閱資料存取策略。
整合執行階段提供內建的 Amazon RDS for Oracle 驅動程式。 因此,當您從 Amazon RDS for Oracle 複製資料時,不需要手動安裝驅動程式。
開始使用
若要透過管線執行複製活動,您可以使用下列其中一個工具或 SDK:
使用 UI 建立 Amazon RDS for Oracle 的連結服務
使用下列步驟,以 Azure 入口網站 UI 建立 Amazon RDS for Oracle 的連結服務。
前往 Azure Data Factory 或 Synapse 工作區的 [管理] 索引標籤,選取 [連結服務],然後按一下 [新增]:
搜尋 Amazon RDS for Oracle,然後選取 Amazon RDS for Oracle 連接器。
設定服務詳細資料,測試連線,然後建立新的連結服務。
連接器設定詳細資料
下列各節提供屬性的詳細資料,這些屬性是用來定義 Amazon RDS for Oracle 連接器的專屬實體。
連結服務屬性
Amazon RDS for Oracle 連結服務支援下列屬性:
屬性 | 描述 | 必要 |
---|---|---|
type | 類型屬性必須設定為 AmazonRdsForOracle。 | Yes |
connectionString | 指定連線到 Amazon RDS for Oracle Database 執行個體所需的資訊。 您也可以將密碼放在 Azure Key Vault 中,並從連接字串中提取 password 組態。 請參閱下列範例和在 Azure Key Vault 中儲存認證提供的更多詳細資料。 支援的連線類型:您可以使用 Amazon RDS for Oracle SID 或 Amazon RDS for Oracle 服務名稱來識別您的資料庫: - 如果您使用 SID: Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>; - 如果您使用服務名稱: Host=<host>;Port=<port>;ServiceName=<servicename>;User Id=<username>;Password=<password>; 針對進階 Amazon RDS for Oracle 原生連線選項,您可以選擇在 Amazon RDS for Oracle 伺服器上的 TNSNAMES.ORA 檔案中新增輸入,並在 Amazon RDS for Oracle 連結服務中選擇使用 Amazon RDS for Oracle 服務名稱連線類型,並設定對應的服務名稱。 |
Yes |
connectVia | 用來連線到資料存放區的整合執行階段。 深入了解必要條件一節。 如果未指定,則會使用預設的 Azure Integration Runtime。 | No |
如果您有多個 Amazon RDS for Oracle 執行個體進行容錯移轉案例,您可以建立 Amazon RDS for Oracle 連結服務,並填入主要主機、連接埠、使用者名稱、密碼等,並以屬性名稱為 AlternateServers
和值為 (HostName=<secondary host>:PortNumber=<secondary port>:ServiceName=<secondary service name>)
新增新的其他連線屬性 - 請勿遺漏括弧,並注意冒號 (:
) 為分隔符號。 例如,下列替代伺服器的值會定義兩個替代資料庫伺服器以進行連線容錯移轉:(HostName=AccountingAmazonRdsForOracleServer:PortNumber=1521:SID=Accounting,HostName=255.201.11.24:PortNumber=1522:ServiceName=ABackup.NA.MyCompany)
。
您可以針對每個案例在連接字串中設定更多連線屬性:
屬性 | 說明 | 允許的值 |
---|---|---|
[陣列大小] | 連接器可以在單一網路來回行程中擷取的位元組數目。 例如: ArraySize=10485760 。較大的值可藉由減少跨網路擷取資料的次數增加輸送量。 由於等候伺服器傳輸資料的延遲較少,因此較小的值會增加回應時間。 |
1 到 4294967296 (4 GB) 之間的整數。 預設值為 60000 。 值 1 不會定義位元組數目,但會指出只配置一個資料列的空間。 |
若要啟用 Amazon RDS for Oracle 連線加密,您有兩個選項:
若要使用三重 DES 加密 (3DES) 和進階加密標準 (AES),請從 Amazon RDS for Oracle 伺服器端,移至 Oracle 進階安全性 (OAS) 並設定加密設定。 如需詳細資訊,請參閱此 Oracle 文件。 Amazon RDS for Oracle 應用程式開發架構 (ADF) 連接器會自動協商加密方法,以使用建立 Amazon RDS for Oracle 連線時,您於 OAS 中設定的方法。
使用 TLS:
取得 TLS/SSL 憑證資訊。 取得 TLS/SSL 憑證的可辨別編碼規則 (DER) 編碼憑證資訊,並將輸出 (----- 開始憑證 … 結束憑證 -----) 儲存為文字檔。
openssl x509 -inform DER -in [Full Path to the DER Certificate including the name of the DER Certificate] -text
範例:從 DERcert.cer 擷取憑證資訊,接著將輸出儲存到 cert.txt。
openssl x509 -inform DER -in DERcert.cer -text Output: -----BEGIN CERTIFICATE----- XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXX -----END CERTIFICATE-----
建置
keystore
或truststore
。 下列命令會建立truststore
檔案,但不一定要使用 PKCS-12 格式的密碼。openssl pkcs12 -in [Path to the file created in the previous step] -out [Path and name of TrustStore] -passout pass:[Keystore PWD] -nokeys -export
範例:使用密碼建立名為 MyTrustStoreFile 的 PKCS12
truststore
檔案。openssl pkcs12 -in cert.txt -out MyTrustStoreFile -passout pass:ThePWD -nokeys -export
將
truststore
檔案放在自我裝載 IR 的機器上。 例如,將檔案放在 C:\MyTrustStoreFile。在服務中,使用
EncryptionMethod=1
和對應的TrustStore
/TrustStorePassword
值來設定 Amazon RDS for Oracle 連接字串。 例如:Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;EncryptionMethod=1;TrustStore=C:\\MyTrustStoreFile;TrustStorePassword=<trust_store_password>
。
範例:
{
"name": "AmazonRdsForOracleLinkedService",
"properties": {
"type": "AmazonRdsForOracle",
"typeProperties": {
"connectionString": "Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
範例:在 Azure Key Vault 中儲存密碼
{
"name": "AmazonRdsForOracleLinkedService",
"properties": {
"type": "AmazonRdsForOracle",
"typeProperties": {
"connectionString": "Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;",
"password": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
資料集屬性
本節提供 Amazon RDS for Oracle 資料集所支援的屬性清單。 如需定義資料集的區段和屬性完整清單,請參閱資料集。
若要從 Amazon RDS for Oracle 複製資料,請將資料集的類型屬性設定為 AmazonRdsForOracleTable
。 以下是支援的屬性。
屬性 | 描述 | 必要 |
---|---|---|
type | 資料集的類型屬性必須設定為 AmazonRdsForOracleTable 。 |
Yes |
schema | 結構描述的名稱。 | No |
table | 資料表/檢視的名稱。 | No |
tableName | 具有結構描述的資料表/檢視名稱。 支援此屬性是基於回溯相容性。 對於新的工作負載,請使用 schema 和 table 。 |
No |
範例:
{
"name": "AmazonRdsForOracleDataset",
"properties":
{
"type": "AmazonRdsForOracleTable",
"schema": [],
"typeProperties": {
"schema": "<schema_name>",
"table": "<table_name>"
},
"linkedServiceName": {
"referenceName": "<Amazon RDS for Oracle linked service name>",
"type": "LinkedServiceReference"
}
}
}
複製活動屬性
本節提供 Amazon RDS for Oracle 來源所支援的屬性清單。 如需可用來定義活動的區段和屬性完整清單,請參閱管線。
以 Amazon RDS for Oracle 為來源
提示
若要使用資料分割有效率地從 Amazon RDS for Oracle 載入資料,請參閱從 Amazon RDS for Oracle 平行複製以深入了解。
若要從 Amazon RDS for Oracle 複製資料,請將複製活動中的來源類型設定為 AmazonRdsForOracleSource
。 複製活動的 [來源] 區段支援下列屬性。
屬性 | 描述 | 必要 |
---|---|---|
type | 複製活動來源的類型屬性必須設定為 AmazonRdsForOracleSource 。 |
Yes |
oracleReaderQuery | 使用自訂 SQL 查詢來讀取資料。 例如 "SELECT * FROM MyTable" 。當您啟用分割載入時,您必須攔截查詢中任何對應的內建分割區參數。 例如,請參閱從 Amazon RDS for Oracle 平行複製一節。 |
No |
partitionOptions | 指定用來從 Amazon RDS for Oracle 載入資料的資料分割選項。 允許的值為:None (預設值)、PhysicalPartitionsOfTable 和 DynamicRange。 啟用分割選項後 (即不是 None ),從 Amazon RDS for Oracle 資料庫同時載入資料的平行處理程度,會由複製活動的 parallelCopies 設定所控制。 |
No |
partitionSettings | 指定資料分割的設定群組。 當分割選項不是 None 時套用。 |
No |
partitionNames | 需要複製的實體分割區清單。 當分割選項是 PhysicalPartitionsOfTable 時套用。 如果您使用查詢來取出來源資料,請在 WHERE 子句中加上 ?AdfTabularPartitionName 。 如需範例,請參閱從 Amazon RDS for Oracle 平行複製一節。 |
No |
partitionColumnName | 指定整數類型來源資料行的名稱,供平行複製的範圍分割使用。 如果未指定,則會自動偵測資料表的主索引鍵作為分割資料行。 當分割選項是 DynamicRange 時套用。 如果您使用查詢來取出來源資料,請在 WHERE 子句中加上 ?AdfRangePartitionColumnName 。 如需範例,請參閱從 Amazon RDS for Oracle 平行複製一節。 |
No |
partitionUpperBound | 從分割資料行複製出資料時的最大值。 當分割選項是 DynamicRange 時套用。 如果您使用查詢來取出來源資料,請在 WHERE 子句中加上 ?AdfRangePartitionUpbound 。 如需範例,請參閱從 Amazon RDS for Oracle 平行複製一節。 |
No |
partitionLowerBound | 從分割資料行複製出資料時的最小值。 當分割選項是 DynamicRange 時套用。 如果您使用查詢來取出來源資料,請在 WHERE 子句中加上 ?AdfRangePartitionLowbound 。 如需範例,請參閱從 Amazon RDS for Oracle 平行複製一節。 |
No |
範例:使用不含分割區的基本查詢來複製資料
"activities":[
{
"name": "CopyFromAmazonRdsForOracle",
"type": "Copy",
"inputs": [
{
"referenceName": "<Amazon RDS for Oracle input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "AmazonRdsForOracleSource",
"oracleReaderQuery": "SELECT * FROM MyTable"
},
"sink": {
"type": "<sink type>"
}
}
}
]
從 Amazon RDS for Oracle 平行複製
Amazon RDS for Oracle 連接器提供內建的資料分割,以平行方式從 Amazon RDS for Oracle 複製資料。 您可以在複製活動的 [來源] 索引標籤上找到資料分割選項。
當您啟用分割複本時,服務會平行查詢 Amazon RDS for Oracle 來源,依分割載入資料。 平行程度由複製活動的 parallelCopies
設定所控制。 例如,如果您將 parallelCopies
設定為 4,服務會根據您指定的資料分割選項和設定,同時產生並執行四個查詢,而每個查詢會從 Amazon RDS for Oracle 資料庫取出一部分資料。
建議您啟用平行複製與資料分割,特別是從 Amazon RDS for Oracle 資料庫載入大量資料時。 以下針對各種情節的建議設定。 將資料複製到以檔案為基礎的資料存放區時,建議分成多個檔案來寫入資料夾 (僅指定資料夾名稱),這樣效能會比寫入單一檔案更好。
案例 | 建議的設定 |
---|---|
使用實體分割區從大型資料表完整載入。 | 分割選項:資料表的實體分割區。 在執行期間,服務會自動偵測實體分割區,並依分割區複製資料。 |
從大型資料表完整載入,不含實體分割區,同時在資料分割時包含整數資料行。 | 分割選項:動態範圍分割。 分割資料行:指定用來分割資料的資料行。 如果未指定,則會使用主索引鍵資料行。 |
使用自訂查詢載入大量資料,包含實體分割區。 | 分割選項:資料表的實體分割區。 查詢: SELECT * FROM <TABLENAME> PARTITION("?AdfTabularPartitionName") WHERE <your_additional_where_clause> 。分割區名稱:指定要從中複製資料的分割區名稱。 如果未指定,服務會自動偵測您在 Amazon RDS for Oracle 資料集中指定之資料表上的實體分割。 在執行期間,服務會以實際的分割名稱取代 ?AdfTabularPartitionName ,並傳送至 Amazon RDS for Oracle。 |
使用自訂查詢載入大量資料,不含實體分割區,同時包含整數資料行用於資料分割。 | 分割選項:動態範圍分割。 查詢: SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause> 。分割資料行:指定用來分割資料的資料行。 您可以按照整數資料類型的資料行來分割。 分割上限和分割下限:指定您是否想要篩選分割資料行,只取出下限範圍和上限範圍之間的資料。 在執行期間,服務會將 ?AdfRangePartitionColumnName 、?AdfRangePartitionUpbound 和 ?AdfRangePartitionLowbound 替換成每個分割的實際資料行名稱和值範圍,並傳送至 Amazon RDS for Oracle。 例如,如果分割資料行 "ID" 已設定下限 1 和上限 80,而平行複製設定為 4,則服務會分成 4 個分割區來取出資料。 識別碼的範圍分別為 [1,20]、[21, 40]、[41, 60] 和 [61, 80]。 |
提示
從非資料分割資料表複製資料時,您可以使用 [動態範圍] 資料分割選項,針對整數資料行進行分割。 如果您的來源資料沒有這類資料行類型,您可以在來源查詢中利用 ORA_HASH 函式來產生資料行,並將其當做資料分割資料行使用。
範例:使用實體分割進行查詢
"source": {
"type": "AmazonRdsForOracleSource",
"query": "SELECT * FROM <TABLENAME> PARTITION(\"?AdfTabularPartitionName\") WHERE <your_additional_where_clause>",
"partitionOption": "PhysicalPartitionsOfTable",
"partitionSettings": {
"partitionNames": [
"<partitionA_name>",
"<partitionB_name>"
]
}
}
範例:使用動態範圍分割進行查詢
"source": {
"type": "AmazonRdsForOracleSource",
"query": "SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>",
"partitionOption": "DynamicRange",
"partitionSettings": {
"partitionColumnName": "<partition_column_name>",
"partitionUpperBound": "<upper_value_of_partition_column>",
"partitionLowerBound": "<lower_value_of_partition_column>"
}
}
查閱活動屬性
若要了解屬性的詳細資料,請參閱查閱活動。
相關內容
如需複製活動支援作為來源和接收器的資料存放區清單,請參閱支援的資料存放區。