Copiar dados de e para a Oracle usando o Azure Data Factory ou o Azure Synapse Analytics
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Gorjeta
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!
Este artigo descreve como usar a atividade de cópia no Azure Data Factory para copiar dados de e para um banco de dados Oracle. Ele se baseia na visão geral da atividade de cópia.
Capacidades suportadas
Este conector Oracle é suportado para os seguintes recursos:
Capacidades suportadas | IR |
---|---|
Atividade de cópia (origem/coletor) | (1) (2) |
Atividade de Pesquisa | (1) (2) |
Atividade de script | (1) (2) |
(1) Tempo de execução de integração do Azure (2) Tempo de execução de integração auto-hospedado
Para obter uma lista de armazenamentos de dados suportados como fontes ou coletores pela atividade de cópia, consulte a tabela Armazenamentos de dados suportados.
Especificamente, este conector Oracle suporta:
- As seguintes versões de um banco de dados Oracle:
- Oracle 19c R1 (19.1) e superior
- Oracle 18c R1 (18.1) e superior
- Oracle 12c R1 (12.1) e superior
- Oracle 11g R1 (11.1) e superior
- Oracle 10g R1 (10.1) e superior
- Oracle 9i R2 (9.2) e superior
- Oracle 8i R3 (8.1.7) e superior
- Serviço Oracle Database Cloud Exadata
- Cópia paralela de uma fonte Oracle. Consulte a seção Cópia paralela do Oracle para obter detalhes.
Nota
O servidor proxy Oracle não é suportado.
Pré-requisitos
Se seu armazenamento de dados estiver localizado dentro de uma rede local, uma rede virtual do Azure ou a Amazon Virtual Private Cloud, você precisará configurar um tempo de execução de integração auto-hospedado para se conectar a ele.
Se o seu armazenamento de dados for um serviço de dados de nuvem gerenciado, você poderá usar o Tempo de Execução de Integração do Azure. Se o acesso for restrito a IPs aprovados nas regras de firewall, você poderá adicionar IPs do Azure Integration Runtime à lista de permissões.
Você também pode usar o recurso de tempo de execução de integração de rede virtual gerenciada no Azure Data Factory para acessar a rede local sem instalar e configurar um tempo de execução de integração auto-hospedado.
Para obter mais informações sobre os mecanismos de segurança de rede e as opções suportadas pelo Data Factory, consulte Estratégias de acesso a dados.
O tempo de execução da integração fornece um driver Oracle integrado. Portanto, você não precisa instalar manualmente um driver quando copia dados de e para o Oracle.
Começar agora
Para executar a atividade Copiar com um pipeline, você pode usar uma das seguintes ferramentas ou SDKs:
- A ferramenta Copiar dados
- O portal do Azure
- O SDK do .NET
- O SDK do Python
- Azure PowerShell
- A API REST
- O modelo do Azure Resource Manager
Criar um serviço vinculado ao Oracle usando a interface do usuário
Use as etapas a seguir para criar um serviço vinculado ao Oracle na interface do usuário do portal do Azure.
Navegue até a guia Gerenciar em seu espaço de trabalho do Azure Data Factory ou Synapse e selecione Serviços Vinculados e clique em Novo:
Procure Oracle e selecione o conector Oracle.
Configure os detalhes do serviço, teste a conexão e crie o novo serviço vinculado.
Detalhes de configuração do conector
As seções a seguir fornecem detalhes sobre as propriedades usadas para definir entidades específicas para o conector Oracle.
Propriedades do serviço vinculado
O serviço vinculado Oracle suporta as seguintes propriedades:
Property | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type deve ser definida como Oracle. | Sim |
connectionString | Especifica as informações necessárias para se conectar à instância do Oracle Database. Você também pode colocar uma senha no Cofre de Chaves do Azure e extrair a password configuração da cadeia de conexão. Consulte os seguintes exemplos e Armazenar credenciais no Cofre da Chave do Azure com mais detalhes. Tipo de conexão suportado: Você pode usar o Oracle SID ou o Oracle Service Name para identificar seu banco de dados: - Se você usar SID: Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>; - Se você usar o Nome do Serviço: Host=<host>;Port=<port>;ServiceName=<servicename>;User Id=<username>;Password=<password>; Para opções avançadas de conexão nativa do Oracle, você pode optar por adicionar uma entrada no TNSNAMES. ORA na máquina onde o tempo de execução de integração auto-hospedado está instalado e, no serviço vinculado Oracle, escolha usar o tipo de conexão Oracle Service Name e configure o nome do serviço correspondente. |
Sim |
ConecteVia | O tempo de execução de integração a ser usado para se conectar ao armazenamento de dados. Saiba mais na seção Pré-requisitos . Se não for especificado, o Tempo de Execução de Integração do Azure padrão será usado. | Não |
Gorjeta
Se você receber um erro, "ORA-01025: parâmetro UPI fora do intervalo", e sua versão do Oracle for 8i, adicione WireProtocolMode=1
à sua cadeia de conexão. Em seguida, tente novamente.
Se você tiver várias instâncias Oracle para o cenário de failover, poderá criar o serviço vinculado Oracle e preencher o host primário, a porta, o nome de usuário, a senha, etc., e adicionar uma nova "Propriedades de conexão adicionais" com o nome da propriedade como AlternateServers
e o valor como (HostName=<secondary host>:PortNumber=<secondary port>:ServiceName=<secondary service name>)
- não perca os colchetes e preste atenção aos dois pontos (:
) como separador. Como exemplo, o seguinte valor de servidores alternativos define dois servidores de banco de dados alternativos para failover de conexão: (HostName=AccountingOracleServer:PortNumber=1521:SID=Accounting,HostName=255.201.11.24:PortNumber=1522:ServiceName=ABackup.NA.MyCompany)
.
Mais propriedades de conexão que você pode definir na cadeia de conexão por seu caso:
Property | Description | Valores permitidos |
---|---|---|
ArraySize | O número de bytes que o conector pode buscar em uma única viagem de ida e volta de rede. Por exemplo, ArraySize=10485760 .Valores maiores aumentam a taxa de transferência, reduzindo o número de vezes para buscar dados na rede. Valores menores aumentam o tempo de resposta, pois há menos atraso esperando que o servidor transmita dados. |
Um inteiro de 1 a 4294967296 (4 GB). O valor predefinido é 60000 . O valor 1 não define o número de bytes, mas indica a alocação de espaço para exatamente uma linha de dados. |
Para habilitar a criptografia na conexão Oracle, você tem duas opções:
Para usar Triple-DES Encryption (3DES) e Advanced Encryption Standard (AES), no lado do servidor Oracle, vá para Oracle Advanced Security (OAS) e defina as configurações de criptografia. Para obter detalhes, consulte esta documentação da Oracle. O conector ADF (Oracle Application Development Framework) negocia automaticamente o método de criptografia para usar aquele que você configura no OAS ao estabelecer uma conexão com o Oracle.
Para usar TLS, configure
truststore
a autenticação do servidor SSL aplicando um dos três métodos a seguir:Método 1 (recomendado):
Instale o certificado TLS/SSL importando-o para o armazenamento de certificados local. O driver Oracle integrado é capaz de carregar o certificado necessário do armazenamento de certificados.
No serviço, configure a cadeia de conexão Oracle com
EncryptionMethod=1
.
Método 2:
Obtenha as informações do certificado TLS/SSL. Obtenha as informações de certificado codificadas por DER (Distinguished Encoding Rules) ou pelo PEM (Privacy Enhanced Mail) do seu certificado TLS/SSL.
openssl x509 -inform (DER|PEM) -in [Full Path to the DER/PEM Certificate including the name of the DER/PEM Certificate] -text
No serviço, configure a cadeia de conexão Oracle com
EncryptionMethod=1
e o valor correspondenteTrustStore
. Por exemplo,Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;EncryptionMethod=1;TrustStore= data:// -----BEGIN CERTIFICATE-----<certificate content>-----END CERTIFICATE-----
Nota
- O valor do
TrustStore
campo deve ser prefixado comdata://
. - Ao especificar o conteúdo de vários certificados, especifique o conteúdo de cada certificado entre
-----BEGIN CERTIFICATE-----
e-----END CERTIFICATE-----
. O número de traços (-----
) deve ser o mesmo antes e depois de ambosBEGIN CERTIFICATE
eEND CERTIFICATE
. Por exemplo:
-----BEGIN CERTIFICATE-----<certificate content 1>-----END CERTIFICATE-----
-----BEGIN CERTIFICATE-----<certificate content 2>-----END CERTIFICATE-----
-----BEGIN CERTIFICATE-----<certificate content 3>-----END CERTIFICATE-----
- O
TrustStore
campo suporta conteúdo de até 8192 caracteres.
- O valor do
Método 3:
Crie o
truststore
arquivo com cifras fortes como AES256.openssl pkcs12 -in [Full Path to the DER/PEM Certificate including the name of the DER/PEM Certificate] -out [Path and name of TrustStore] -passout pass:[Keystore PWD] -keypbe AES-256-CBC -certpbe AES-256-CBC -nokeys -export
Coloque o
truststore
arquivo na máquina de tempo de execução de integração auto-hospedada. Por exemplo, coloque o arquivo emC:\MyTrustStoreFile
.No serviço, configure a cadeia de conexão Oracle com
EncryptionMethod=1
e o valor correspondente/TrustStore
TrustStorePassword
. Por exemplo,Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;EncryptionMethod=1;TrustStore=C:\\MyTrustStoreFile;TrustStorePassword=<trust_store_password>
.
Exemplo:
{
"name": "OracleLinkedService",
"properties": {
"type": "Oracle",
"typeProperties": {
"connectionString": "Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Exemplo: armazenar senha no Cofre da Chave do Azure
{
"name": "OracleLinkedService",
"properties": {
"type": "Oracle",
"typeProperties": {
"connectionString": "Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;",
"password": {
"type": "AzureKeyVaultSecret",
"store": {
"referenceName": "<Azure Key Vault linked service name>",
"type": "LinkedServiceReference"
},
"secretName": "<secretName>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Propriedades do conjunto de dados
Esta seção fornece uma lista de propriedades suportadas pelo conjunto de dados Oracle. Para obter uma lista completa de seções e propriedades disponíveis para definir conjuntos de dados, consulte Conjuntos de dados.
Para copiar dados de e para o Oracle, defina a propriedade type do conjunto de dados como OracleTable
. As seguintes propriedades são suportadas.
Property | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type do conjunto de dados deve ser definida como OracleTable . |
Sim |
esquema | Nome do esquema. | Não para a fonte, Sim para o lavatório |
tabela | Nome da tabela/vista. | Não para a fonte, Sim para o lavatório |
tableName | Nome da tabela/vista com esquema. Esta propriedade é suportada para compatibilidade com versões anteriores. Para nova carga de trabalho, use schema e table . |
Não para a fonte, Sim para o lavatório |
Exemplo:
{
"name": "OracleDataset",
"properties":
{
"type": "OracleTable",
"schema": [],
"typeProperties": {
"schema": "<schema_name>",
"table": "<table_name>"
},
"linkedServiceName": {
"referenceName": "<Oracle linked service name>",
"type": "LinkedServiceReference"
}
}
}
Propriedades da atividade Copy
Esta seção fornece uma lista de propriedades suportadas pela origem e pelo coletor Oracle. Para obter uma lista completa de seções e propriedades disponíveis para definir atividades, consulte Pipelines.
Oracle como fonte
Gorjeta
Para carregar dados do Oracle de forma eficiente usando o particionamento de dados, saiba mais com a cópia paralela da Oracle.
Para copiar dados do Oracle, defina o tipo de origem na atividade de cópia como OracleSource
. As propriedades a seguir são suportadas na seção copiar fonte de atividade.
Property | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type da fonte de atividade de cópia deve ser definida como OracleSource . |
Sim |
oracleReaderQuery | Use a consulta SQL personalizada para ler dados. Um exemplo é "SELECT * FROM MyTable" .Ao habilitar a carga particionada, você precisa conectar quaisquer parâmetros de partição internos correspondentes em sua consulta. Para obter exemplos, consulte a seção Cópia paralela do Oracle . |
Não |
convertDecimalToInteger | O tipo Oracle NUMBER com escala zero ou não especificada será convertido em inteiro correspondente. Os valores permitidos são true e false (padrão). | Não |
partitionOptions | Especifica as opções de particionamento de dados usadas para carregar dados do Oracle. Os valores permitidos são: None (padrão), PhysicalPartitionsOfTable e DynamicRange. Quando uma opção de partição está habilitada (ou seja, não None ), o grau de paralelismo para carregar simultaneamente dados de um banco de dados Oracle é controlado pela parallelCopies configuração na atividade de cópia. |
Não |
partitionSettings | Especifique o grupo de configurações para particionamento de dados. Aplique quando a opção de partição não None for . |
Não |
partitionNames | A lista de partições físicas que precisam ser copiadas. Aplique quando a opção de partição for PhysicalPartitionsOfTable . Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfTabularPartitionName a cláusula WHERE. Para obter um exemplo, consulte a seção Cópia paralela do Oracle . |
Não |
partitionColumnName | Especifique o nome da coluna de origem no tipo inteiro que será usado pelo particionamento de intervalo para cópia paralela. Se não for especificado, a chave primária da tabela será detetada automaticamente e usada como coluna de partição. Aplique quando a opção de partição for DynamicRange . Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfRangePartitionColumnName a cláusula WHERE. Para obter um exemplo, consulte a seção Cópia paralela do Oracle . |
Não |
partiçãoUpperBound | O valor máximo da coluna de partição para copiar dados. Aplique quando a opção de partição for DynamicRange . Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfRangePartitionUpbound a cláusula WHERE. Para obter um exemplo, consulte a seção Cópia paralela do Oracle . |
Não |
partiçãoLowerBound | O valor mínimo da coluna de partição para copiar dados. Aplique quando a opção de partição for DynamicRange . Se você usar uma consulta para recuperar os dados de origem, conecte ?AdfRangePartitionLowbound a cláusula WHERE. Para obter um exemplo, consulte a seção Cópia paralela do Oracle . |
Não |
Exemplo: copiar dados usando uma consulta básica sem partição
"activities":[
{
"name": "CopyFromOracle",
"type": "Copy",
"inputs": [
{
"referenceName": "<Oracle input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "OracleSource",
"convertDecimalToInteger": false,
"oracleReaderQuery": "SELECT * FROM MyTable"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Oracle como sumidouro
Para copiar dados para o Oracle, defina o tipo de coletor na atividade de cópia como OracleSink
. As propriedades a seguir são suportadas na seção coletor de atividade de cópia.
Property | Descrição | Obrigatório |
---|---|---|
tipo | A propriedade type do coletor de atividade de cópia deve ser definida como OracleSink . |
Sim |
writeBatchSize | Insere dados na tabela SQL quando o tamanho do buffer atinge writeBatchSize .Os valores permitidos são Inteiro (número de linhas). |
Não (o padrão é 10.000) |
writeBatchTimeout | O tempo de espera para que a operação de inserção de lote seja concluída antes que ela atinja o tempo limite. Os valores permitidos são Timepan. Um exemplo é 00:30:00 (30 minutos). |
Não |
pré-CopyScript | Especifique uma consulta SQL para que a atividade de cópia seja executada antes de gravar dados no Oracle em cada execução. Você pode usar essa propriedade para limpar os dados pré-carregados. | Não |
maxConcurrentConnections | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | Não |
Exemplo:
"activities":[
{
"name": "CopyToOracle",
"type": "Copy",
"inputs": [
{
"referenceName": "<input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<Oracle output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>"
},
"sink": {
"type": "OracleSink"
}
}
}
]
Cópia paralela do Oracle
O conector Oracle fornece particionamento de dados integrado para copiar dados do Oracle em paralelo. Você pode encontrar opções de particionamento de dados na guia Origem da atividade de cópia.
Quando você habilita a cópia particionada, o serviço executa consultas paralelas na fonte Oracle para carregar dados por partições. O grau paralelo é controlado pela parallelCopies
configuração na atividade de cópia. Por exemplo, se você definir parallelCopies
como quatro, o serviço gerará e executará simultaneamente quatro consultas com base na opção e nas configurações de partição especificadas, e cada consulta recuperará uma parte dos dados do banco de dados Oracle.
Sugere-se que habilite a cópia paralela com particionamento de dados, especialmente quando você carrega uma grande quantidade de dados do banco de dados Oracle. A seguir estão sugeridas configurações para diferentes cenários. Ao copiar dados para o armazenamento de dados baseado em arquivo, é recomendável gravar em uma pasta como vários arquivos (especifique apenas o nome da pasta), caso em que o desempenho é melhor do que gravar em um único arquivo.
Cenário | Configurações sugeridas |
---|---|
Carga completa a partir de uma mesa grande, com divisórias físicas. | Opção de partição: Partições físicas da tabela. Durante a execução, o serviço deteta automaticamente as partições físicas e copia os dados por partições. |
Carga completa a partir de uma tabela grande, sem partições físicas, enquanto com uma coluna inteira para particionamento de dados. | Opções de partição: Partição de intervalo dinâmico. Coluna de partição: especifique a coluna usada para particionar dados. Se não for especificado, a coluna de chave primária será usada. |
Carregue uma grande quantidade de dados usando uma consulta personalizada, com partições físicas. | Opção de partição: Partições físicas da tabela. Consulta: SELECT * FROM <TABLENAME> PARTITION("?AdfTabularPartitionName") WHERE <your_additional_where_clause> .Nome da partição: especifique o(s) nome(s) da(s) partição(ões) de onde copiar os dados. Se não for especificado, o serviço detetará automaticamente as partições físicas na tabela especificada no conjunto de dados Oracle. Durante a execução, o serviço substitui ?AdfTabularPartitionName pelo nome real da partição e envia para a Oracle. |
Carregue uma grande quantidade de dados usando uma consulta personalizada, sem partições físicas, enquanto com uma coluna inteira para particionamento de dados. | Opções de partição: Partição de intervalo dinâmico. Consulta: SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause> .Coluna de partição: especifique a coluna usada para particionar dados. Você pode particionar contra a coluna com o tipo de dados inteiro. Limite superior da partição e limite inferior da partição: especifique se deseja filtrar a coluna da partição para recuperar dados apenas entre o intervalo inferior e superior. Durante a execução, o serviço substitui ?AdfRangePartitionColumnName , ?AdfRangePartitionUpbound e ?AdfRangePartitionLowbound com o nome da coluna real e intervalos de valores para cada partição, e envia para a Oracle. Por exemplo, se a coluna de partição "ID" estiver definida com o limite inferior como 1 e o limite superior como 80, com cópia paralela definida como 4, o serviço recuperará dados por 4 partições. Os seus IDs situam-se entre [1,20], [21, 40], [41, 60] e [61, 80], respetivamente. |
Gorjeta
Ao copiar dados de uma tabela não particionada, você pode usar a opção de partição "Intervalo dinâmico" para particionar em uma coluna inteira. Se os dados de origem não tiverem esse tipo de coluna, você poderá aproveitar ORA_HASH função na consulta de origem para gerar uma coluna e usá-la como coluna de partição.
Exemplo: consulta com partição física
"source": {
"type": "OracleSource",
"query": "SELECT * FROM <TABLENAME> PARTITION(\"?AdfTabularPartitionName\") WHERE <your_additional_where_clause>",
"partitionOption": "PhysicalPartitionsOfTable",
"partitionSettings": {
"partitionNames": [
"<partitionA_name>",
"<partitionB_name>"
]
}
}
Exemplo: consulta com partição de intervalo dinâmico
"source": {
"type": "OracleSource",
"query": "SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>",
"partitionOption": "DynamicRange",
"partitionSettings": {
"partitionColumnName": "<partition_column_name>",
"partitionUpperBound": "<upper_value_of_partition_column>",
"partitionLowerBound": "<lower_value_of_partition_column>"
}
}
Mapeamento de tipo de dados para Oracle
Quando você copia dados de e para o Oracle, os mapeamentos de tipo de dados provisórios a seguir são usados no serviço. Para saber como a atividade de cópia mapeia o esquema de origem e o tipo de dados para o coletor, consulte Mapeamentos de esquema e tipo de dados.
Tipo de dados Oracle | Tipo de dados provisórios |
---|---|
BFILE | Byte[] |
BLOB | Byte[] (suportado apenas no Oracle 10g e superior) |
CHAR | String |
CLOB | String |
DATE | DateTime |
FLUTUAR | Decimal, String (se precisão > 28) |
INTEIRO | Decimal, String (se precisão > 28) |
LONGO | String |
LONGO CRU | Byte[] |
NCHAR | String |
NCLOB | String |
NÚMERO (p,s) | Decimal, String (se p > 28) |
NÚMERO sem precisão e escala | Duplo |
NVARCHAR2 | String |
CRU | Byte[] |
ROWID | String |
CARIMBO DE DATA/HORA | DateTime |
CARIMBO DE DATA/HORA COM FUSO HORÁRIO LOCAL | String |
CARIMBO DE DATA/HORA COM FUSO HORÁRIO | String |
INTEIRO NÃO ASSINADO | Número |
VARCHAR2 | String |
XML | String |
Nota
Os tipos de dados INTERVAL YEAR TO MONTH e INTERVAL DAY TO SECOND não são suportados.
Propriedades da atividade de pesquisa
Para saber detalhes sobre as propriedades, verifique Atividade de pesquisa.
Conteúdos relacionados
Para obter uma lista de armazenamentos de dados suportados como fontes e coletores pela atividade de cópia, consulte Armazenamentos de dados suportados.