Kopiowanie danych z usługi Amazon RDS for Oracle przy użyciu usługi Azure Data Factory lub Azure Synapse Analytics
DOTYCZY: Azure Data Factory Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
W tym artykule opisano sposób używania działania kopiowania w usłudze Azure Data Factory do kopiowania danych z bazy danych Amazon RDS for Oracle. Jest on oparty na omówieniu działania kopiowania.
Obsługiwane możliwości
Ten łącznik usługi Amazon RDS for Oracle jest obsługiwany w następujących funkcjach:
Obsługiwane możliwości | IR |
---|---|
działanie Kopiuj (źródło/-) | (1) (2) |
Działanie Lookup | (1) (2) |
(1) Środowisko Azure Integration Runtime (2) Self-hosted Integration Runtime
Aby uzyskać listę magazynów danych obsługiwanych jako źródła lub ujścia przez działanie kopiowania, zobacz tabelę Obsługiwane magazyny danych.
W szczególności ten łącznik Amazon RDS for Oracle obsługuje następujące funkcje:
- Następujące wersje bazy danych Amazon RDS for Oracle:
- Amazon RDS for Oracle 19c R1 (19.1) i nowsze
- Amazon RDS for Oracle 18c R1 (18.1) i nowsze
- Amazon RDS for Oracle 12c R1 (12.1) i nowsze
- Amazon RDS for Oracle 11g R1 (11.1) i nowsze
- Równoległe kopiowanie z usługi Amazon RDS dla źródła Oracle. Aby uzyskać szczegółowe informacje, zobacz sekcję Równoległa kopia z usługi Amazon RDS for Oracle .
Uwaga
Usługa Amazon RDS dla serwera proxy Oracle nie jest obsługiwana.
Wymagania wstępne
Jeśli magazyn danych znajduje się wewnątrz sieci lokalnej, sieci wirtualnej platformy Azure lub chmury prywatnej Amazon Virtual, musisz skonfigurować własne środowisko Integration Runtime , aby się z nim połączyć.
Jeśli magazyn danych jest zarządzaną usługą danych w chmurze, możesz użyć środowiska Azure Integration Runtime. Jeśli dostęp jest ograniczony do adresów IP zatwierdzonych w regułach zapory, możesz dodać adresy IP środowiska Azure Integration Runtime do listy dozwolonych.
Możesz również użyć funkcji środowiska Integration Runtime zarządzanej sieci wirtualnej w usłudze Azure Data Factory, aby uzyskać dostęp do sieci lokalnej bez instalowania i konfigurowania własnego środowiska Integration Runtime.
Aby uzyskać więcej informacji na temat mechanizmów zabezpieczeń sieci i opcji obsługiwanych przez usługę Data Factory, zobacz Strategie dostępu do danych.
Środowisko Integration Runtime udostępnia wbudowany sterownik Amazon RDS for Oracle. W związku z tym nie trzeba ręcznie instalować sterownika podczas kopiowania danych z usługi Amazon RDS for Oracle.
Rozpocznij
Aby wykonać działanie Kopiuj za pomocą potoku, możesz użyć jednego z następujących narzędzi lub zestawów SDK:
- Narzędzie do kopiowania danych
- Witryna Azure Portal
- Zestaw SDK platformy .NET
- Zestaw SDK języka Python
- Azure PowerShell
- Interfejs API REST
- Szablon usługi Azure Resource Manager
Tworzenie połączonej usługi z usługą Amazon RDS for Oracle przy użyciu interfejsu użytkownika
Wykonaj poniższe kroki, aby utworzyć połączoną usługę z usługą Amazon RDS for Oracle w interfejsie użytkownika witryny Azure Portal.
Przejdź do karty Zarządzanie w obszarze roboczym usługi Azure Data Factory lub Synapse i wybierz pozycję Połączone usługi, a następnie kliknij pozycję Nowy:
Wyszukaj pozycję Amazon RDS for Oracle i wybierz łącznik Amazon RDS for Oracle.
Skonfiguruj szczegóły usługi, przetestuj połączenie i utwórz nową połączoną usługę.
Szczegóły konfiguracji łącznika
Poniższe sekcje zawierają szczegółowe informacje o właściwościach używanych do definiowania jednostek specyficznych dla łącznika usługi Amazon RDS for Oracle.
Właściwości połączonej usługi
Połączona usługa Amazon RDS for Oracle obsługuje następujące właściwości:
Właściwości | Opis | Wymagania |
---|---|---|
type | Właściwość type musi być ustawiona na AmazonRdsForOracle. | Tak |
Parametry połączenia | Określa informacje potrzebne do nawiązania połączenia z wystąpieniem usługi Amazon RDS for Oracle Database. Możesz również umieścić hasło w usłudze Azure Key Vault i ściągnąć password konfigurację z parametry połączenia. Aby uzyskać więcej informacji, zapoznaj się z poniższymi przykładami i zapisz poświadczenia w usłudze Azure Key Vault . Obsługiwany typ połączenia: Aby zidentyfikować bazę danych, możesz użyć usługi Amazon RDS dla identyfikatora SID oracle lub usługi Amazon RDS for Oracle Service Name : - Jeśli używasz identyfikatora SID: Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>; — Jeśli używasz nazwy usługi: Host=<host>;Port=<port>;ServiceName=<servicename>;User Id=<username>;Password=<password>; Aby uzyskać zaawansowane opcje połączenia natywnego usługi Amazon RDS dla oracle, możesz dodać wpis w TNSNAMES. Plik ORA na serwerze Amazon RDS for Oracle i w usłudze Amazon RDS for Oracle połączonej usługi wybierz użycie usługi Amazon RDS dla typu połączenia Nazwa usługi Oracle i skonfiguruj odpowiednią nazwę usługi. |
Tak |
connectVia | Środowisko Integration Runtime do nawiązania połączenia z magazynem danych. Dowiedz się więcej w sekcji Wymagania wstępne . Jeśli nie zostanie określony, zostanie użyte domyślne środowisko Azure Integration Runtime. | Nie. |
Jeśli masz wiele wystąpień usługi Amazon RDS dla oracle dla scenariusza trybu failover, możesz utworzyć usługę połączoną Amazon RDS dla oracle i wypełnić hosta podstawowego, port, nazwę użytkownika, hasło itp., a następnie dodać nowe "Dodatkowe właściwości połączenia" z nazwą właściwości jako AlternateServers
i wartością jako (HostName=<secondary host>:PortNumber=<secondary port>:ServiceName=<secondary service name>)
— nie pomijaj nawiasów i zwracaj uwagę na dwukropki (:
) jako separator. Na przykład następująca wartość alternatywnych serwerów definiuje dwa alternatywne serwery bazy danych na potrzeby trybu failover połączenia: (HostName=AccountingAmazonRdsForOracleServer:PortNumber=1521:SID=Accounting,HostName=255.201.11.24:PortNumber=1522:ServiceName=ABackup.NA.MyCompany)
.
Więcej właściwości połączenia, które można ustawić w parametry połączenia w zależności od przypadku:
Właściwości | opis | Dozwolone wartości |
---|---|---|
ArraySize | Liczba bajtów, które łącznik może pobrać w ramach jednej rundy sieciowej. Na przykład ArraySize=10485760 .Większe wartości zwiększają przepływność, zmniejszając liczbę prób pobierania danych w sieci. Mniejsze wartości zwiększają czas odpowiedzi, ponieważ istnieje mniejsze opóźnienie oczekiwania na przesyłanie danych przez serwer. |
Liczba całkowita z zakresu od 1 do 4294967296 (4 GB). Wartość domyślna to 60000 . Wartość 1 nie definiuje liczby bajtów, ale wskazuje przydzielanie miejsca dla dokładnie jednego wiersza danych. |
Aby włączyć szyfrowanie w usłudze Amazon RDS dla połączenia Oracle, dostępne są dwie opcje:
Aby użyć szyfrowania Triple-DES (3DES) i Advanced Encryption Standard (AES), po stronie serwera Amazon RDS for Oracle przejdź do obszaru Oracle Advanced Security (OAS) i skonfiguruj ustawienia szyfrowania. Aby uzyskać szczegółowe informacje, zobacz tę dokumentację oracle. Łącznik Amazon RDS for Oracle Application Development Framework (ADF) automatycznie negocjuje metodę szyfrowania, aby użyć metody szyfrowania skonfigurowanej w systemie operacyjnym podczas nawiązywania połączenia z usługą Amazon RDS for Oracle.
Aby użyć protokołu TLS:
Uzyskaj informacje o certyfikacie TLS/SSL. Pobierz informacje o certyfikatach zakodowanych w formacie DER (Distinguished Encoding Rules) certyfikatu TLS/SSL i zapisz dane wyjściowe (----- Begin Certificate ... Zakończ ----- certyfikatu) jako plik tekstowy.
openssl x509 -inform DER -in [Full Path to the DER Certificate including the name of the DER Certificate] -text
Przykład: wyodrębnianie informacji o certyfikatach z DERcert.cer, a następnie zapisywanie danych wyjściowych w cert.txt.
openssl x509 -inform DER -in DERcert.cer -text Output: -----BEGIN CERTIFICATE----- XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXX -----END CERTIFICATE-----
Skompiluj element
keystore
lubtruststore
. Następujące polecenie tworzytruststore
plik w formacie PKCS-12 lub bez hasła.openssl pkcs12 -in [Path to the file created in the previous step] -out [Path and name of TrustStore] -passout pass:[Keystore PWD] -nokeys -export
Przykład: utwórz plik PKCS12
truststore
o nazwie MyTrustStoreFile z hasłem.openssl pkcs12 -in cert.txt -out MyTrustStoreFile -passout pass:ThePWD -nokeys -export
truststore
Umieść plik na maszynie własnego środowiska IR. Na przykład umieść plik w folderze C:\MyTrustStoreFile.W usłudze skonfiguruj usługę Amazon RDS for Oracle parametry połączenia i
EncryptionMethod=1
odpowiedniąTrustStore
/TrustStorePassword
wartość. Na przykładHost=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;EncryptionMethod=1;TrustStore=C:\\MyTrustStoreFile;TrustStorePassword=<trust_store_password>
.
Przykład:
{
"name": "AmazonRdsForOracleLinkedService",
"properties": {
"type": "AmazonRdsForOracle",
"typeProperties": {
"connectionString": "Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Przykład: przechowywanie hasła w usłudze Azure Key Vault
{
"name": "AmazonRdsForOracleLinkedService",
"properties": {
"type": "AmazonRdsForOracle",
"typeProperties": {
"connectionString": "Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;",
"password": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Właściwości zestawu danych
Ta sekcja zawiera listę właściwości obsługiwanych przez zestaw danych Amazon RDS for Oracle. Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania zestawów danych, zobacz Zestawy danych.
Aby skopiować dane z usługi Amazon RDS for Oracle, ustaw właściwość type zestawu danych na AmazonRdsForOracleTable
wartość . Obsługiwane są następujące właściwości.
Właściwości | Opis | Wymagania |
---|---|---|
type | Właściwość type zestawu danych musi być ustawiona na AmazonRdsForOracleTable . |
Tak |
schema | Nazwa schematu. | Nie. |
table | Nazwa tabeli/widoku. | Nie. |
tableName | Nazwa tabeli/widoku ze schematem. Ta właściwość jest obsługiwana w celu zapewnienia zgodności z poprzednimi wersjami. W przypadku nowego obciążenia użyj polecenia schema i table . |
Nie. |
Przykład:
{
"name": "AmazonRdsForOracleDataset",
"properties":
{
"type": "AmazonRdsForOracleTable",
"schema": [],
"typeProperties": {
"schema": "<schema_name>",
"table": "<table_name>"
},
"linkedServiceName": {
"referenceName": "<Amazon RDS for Oracle linked service name>",
"type": "LinkedServiceReference"
}
}
}
Właściwości działania kopiowania
Ta sekcja zawiera listę właściwości obsługiwanych przez usługę Amazon RDS dla źródła Oracle. Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz Pipelines (Potoki).
Amazon RDS for Oracle jako źródło
Napiwek
Aby wydajnie załadować dane z usługi Amazon RDS for Oracle przy użyciu partycjonowania danych, dowiedz się więcej na temat kopiowania równoległego z usługi Amazon RDS for Oracle.
Aby skopiować dane z usługi Amazon RDS for Oracle, ustaw typ źródła w działaniu kopiowania na AmazonRdsForOracleSource
wartość . Poniższe właściwości są obsługiwane w sekcji źródła działania kopiowania.
Właściwości | Opis | Wymagania |
---|---|---|
type | Właściwość type źródła działania kopiowania musi być ustawiona na AmazonRdsForOracleSource wartość . |
Tak |
oracleReaderQuery | Użyj niestandardowego zapytania SQL, aby odczytać dane. Może to być na przykład "SELECT * FROM MyTable" .Po włączeniu obciążenia partycjonowanego należy podłączyć wszystkie odpowiednie wbudowane parametry partycji w zapytaniu. Aby zapoznać się z przykładami, zobacz sekcję Kopia równoległa z usługi Amazon RDS for Oracle . |
Nie. |
partitionOptions | Określa opcje partycjonowania danych używane do ładowania danych z usługi Amazon RDS for Oracle. Dozwolone wartości to: Brak (wartość domyślna), PhysicalPartitionsOfTable i DynamicRange. Jeśli opcja partycji jest włączona (czyli nie None ), stopień równoległości równoczesnego ładowania danych z bazy danych Amazon RDS for Oracle jest kontrolowany przez parallelCopies ustawienie działania kopiowania. |
Nie. |
partitionSettings | Określ grupę ustawień partycjonowania danych. Zastosuj, gdy opcja partycji nie None jest . |
Nie. |
partitionNames | Lista partycji fizycznych, które należy skopiować. Zastosuj, gdy opcja partycji to PhysicalPartitionsOfTable . Jeśli używasz zapytania do pobierania danych źródłowych, należy podłączyć ?AdfTabularPartitionName się do klauzuli WHERE. Aby zapoznać się z przykładem, zobacz sekcję Kopia równoległa z usługi Amazon RDS for Oracle . |
Nie. |
partitionColumnName | Określ nazwę kolumny źródłowej w typie liczb całkowitych, które będą używane przez partycjonowanie zakresu na potrzeby kopiowania równoległego. Jeśli nie zostanie określony, klucz podstawowy tabeli zostanie automatycznie wykryty i użyty jako kolumna partycji. Zastosuj, gdy opcja partycji to DynamicRange . Jeśli używasz zapytania do pobierania danych źródłowych, należy podłączyć ?AdfRangePartitionColumnName się do klauzuli WHERE. Aby zapoznać się z przykładem, zobacz sekcję Kopia równoległa z usługi Amazon RDS for Oracle . |
Nie. |
partitionUpperBound | Maksymalna wartość kolumny partycji do skopiowania danych. Zastosuj, gdy opcja partycji to DynamicRange . Jeśli używasz zapytania do pobierania danych źródłowych, należy podłączyć ?AdfRangePartitionUpbound się do klauzuli WHERE. Aby zapoznać się z przykładem, zobacz sekcję Kopia równoległa z usługi Amazon RDS for Oracle . |
Nie. |
partitionLowerBound | Minimalna wartość kolumny partycji do skopiowania danych. Zastosuj, gdy opcja partycji to DynamicRange . Jeśli używasz zapytania do pobierania danych źródłowych, należy podłączyć ?AdfRangePartitionLowbound się do klauzuli WHERE. Aby zapoznać się z przykładem, zobacz sekcję Kopia równoległa z usługi Amazon RDS for Oracle . |
Nie. |
Przykład: kopiowanie danych przy użyciu zapytania podstawowego bez partycji
"activities":[
{
"name": "CopyFromAmazonRdsForOracle",
"type": "Copy",
"inputs": [
{
"referenceName": "<Amazon RDS for Oracle input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "AmazonRdsForOracleSource",
"oracleReaderQuery": "SELECT * FROM MyTable"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Kopiowanie równoległe z usługi Amazon RDS for Oracle
Łącznik Amazon RDS for Oracle zapewnia wbudowane partycjonowanie danych w celu równoległego kopiowania danych z usługi Amazon RDS for Oracle. Opcje partycjonowania danych można znaleźć na karcie Źródło działania kopiowania.
Po włączeniu kopii partycjonowanej usługa uruchamia zapytania równoległe względem źródła usługi Amazon RDS for Oracle w celu załadowania danych według partycji. Stopień równoległy jest kontrolowany przez parallelCopies
ustawienie działania kopiowania. Jeśli na przykład ustawiono parallelCopies
wartość cztery, usługa jednocześnie generuje i uruchamia cztery zapytania na podstawie określonej opcji partycji i ustawień, a każde zapytanie pobiera część danych z bazy danych Amazon RDS for Oracle.
Zaleca się włączenie kopiowania równoległego z partycjonowaniem danych, szczególnie w przypadku ładowania dużej ilości danych z bazy danych Amazon RDS for Oracle. Poniżej przedstawiono sugerowane konfiguracje dla różnych scenariuszy. Podczas kopiowania danych do magazynu danych opartego na plikach zaleca się zapisywanie w folderze jako wielu plików (tylko określ nazwę folderu), w tym przypadku wydajność jest lepsza niż zapisywanie w jednym pliku.
Scenariusz | Sugerowane ustawienia |
---|---|
Pełne ładowanie z dużej tabeli z partycjami fizycznymi. | Opcja partycji: fizyczne partycje tabeli. Podczas wykonywania usługa automatycznie wykrywa partycje fizyczne i kopiuje dane według partycji. |
Pełne ładowanie z dużej tabeli, bez partycji fizycznych, podczas gdy z kolumną całkowitą na potrzeby partycjonowania danych. | Opcje partycji: partycja zakresu dynamicznego. Kolumna partycji: określ kolumnę używaną do partycjonowania danych. Jeśli nie zostanie określona, zostanie użyta kolumna klucza podstawowego. |
Załaduj dużą ilość danych przy użyciu zapytania niestandardowego z partycjami fizycznymi. | Opcja partycji: fizyczne partycje tabeli. Zapytanie: SELECT * FROM <TABLENAME> PARTITION("?AdfTabularPartitionName") WHERE <your_additional_where_clause> .Nazwa partycji: określ nazwy partycji do skopiowania danych. Jeśli nie zostanie określony, usługa automatycznie wykryje partycje fizyczne w tabeli określonej w zestawie danych Amazon RDS for Oracle. Podczas wykonywania usługa zastępuje ?AdfTabularPartitionName rzeczywistą nazwę partycji i wysyła do usługi Amazon RDS for Oracle. |
Załaduj dużą ilość danych przy użyciu zapytania niestandardowego, bez partycji fizycznych, natomiast z kolumną całkowitą na potrzeby partycjonowania danych. | Opcje partycji: partycja zakresu dynamicznego. Zapytanie: SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause> .Kolumna partycji: określ kolumnę używaną do partycjonowania danych. Kolumnę można podzielić na partycje przy użyciu typu danych całkowitych. Górna granica partycji i dolna granica partycji: określ, czy chcesz filtrować względem kolumny partycji, aby pobrać dane tylko między dolnym i górnym zakresem. Podczas wykonywania usługa zastępuje ?AdfRangePartitionColumnName wartości , ?AdfRangePartitionUpbound i ?AdfRangePartitionLowbound rzeczywistymi nazwami kolumn i zakresami wartości dla każdej partycji oraz wysyła do usługi Amazon RDS for Oracle. Jeśli na przykład kolumna partycji "ID" jest ustawiona z dolną granicą jako 1 i górną granicą jako 80, z równoległym zestawem kopiowania ustawionym na 4, usługa pobiera dane przez 4 partycje. Ich identyfikatory to odpowiednio od [1, 20], [21, 40], [41, 60] i [61, 80]. |
Napiwek
Podczas kopiowania danych z tabeli bez partycji można użyć opcji partycji "Zakres dynamiczny", aby podzielić je na kolumnę całkowitą. Jeśli dane źródłowe nie mają takiego typu kolumny, możesz użyć funkcji ORA_HASH w zapytaniu źródłowym, aby wygenerować kolumnę i użyć jej jako kolumny partycji.
Przykład: zapytanie z partycją fizyczną
"source": {
"type": "AmazonRdsForOracleSource",
"query": "SELECT * FROM <TABLENAME> PARTITION(\"?AdfTabularPartitionName\") WHERE <your_additional_where_clause>",
"partitionOption": "PhysicalPartitionsOfTable",
"partitionSettings": {
"partitionNames": [
"<partitionA_name>",
"<partitionB_name>"
]
}
}
Przykład: zapytanie z partycją zakresu dynamicznego
"source": {
"type": "AmazonRdsForOracleSource",
"query": "SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>",
"partitionOption": "DynamicRange",
"partitionSettings": {
"partitionColumnName": "<partition_column_name>",
"partitionUpperBound": "<upper_value_of_partition_column>",
"partitionLowerBound": "<lower_value_of_partition_column>"
}
}
Właściwości działania wyszukiwania
Aby dowiedzieć się więcej o właściwościach, sprawdź działanie Wyszukiwania.
Powiązana zawartość
Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia działania kopiowania, zobacz Obsługiwane magazyny danych.