Como configurar o Amazon RDS para SQL Server na atividade de cópia

Artigo
05/01/2024

Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados do Amazon RDS for SQL Server.

Configuração suportada

Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.

General (Geral)
Source
Mapeamento
Definições

Geral

Consulte as orientações de configurações gerais para configurar a guia Configurações gerais.

Origem

As propriedades a seguir são compatíveis com o Amazon RDS for SQL Server na guia Origem de uma atividade de cópia.

Captura de ecrã a mostrar o separador origem e a lista de propriedades.

As seguintes propriedades são necessárias:

Tipo de armazenamento de dados: Selecione Externo.
Conexão: selecione uma conexão do Amazon RDS para SQL Server na lista de conexões. Se a conexão não existir, crie uma nova conexão do Amazon RDS para SQL Server selecionando Novo.
Tipo de conexão: selecione Amazon RDS for SQL Server.
Usar consulta: especifique a maneira de ler dados. Você pode escolher Tabela, Consulta ou Procedimento armazenado. A lista a seguir descreve a configuração de cada configuração:
- Tabela: Leia os dados da tabela especificada. Selecione sua tabela de origem na lista suspensa ou selecione Editar para inseri-la manualmente.
- Consulta: especifique a consulta SQL personalizada para ler dados. Um exemplo é select * from MyTable. Ou selecione o ícone de lápis para editar no editor de códigos.
- Procedimento armazenado: use o procedimento armazenado que lê dados da tabela de origem. A última instrução SQL deve ser uma instrução SELECT no procedimento armazenado.
  - Nome do procedimento armazenado: selecione o procedimento armazenado ou especifique o nome do procedimento armazenado manualmente ao selecionar Editar para ler dados da tabela de origem.
  - Parâmetros de procedimento armazenado: especifique valores para parâmetros de procedimento armazenado. Os valores permitidos são pares de nome ou valor. Os nomes e o invólucro dos parâmetros devem corresponder aos nomes e invólucros dos parâmetros do procedimento armazenado. Você pode selecionar Importar parâmetros para obter os parâmetros do procedimento armazenado.

Em Avançado, você pode especificar os seguintes campos:

Tempo limite da consulta (minutos): especifique o tempo limite para a execução do comando de consulta, o padrão é 120 minutos. Se um parâmetro for definido para essa propriedade, os valores permitidos serão de intervalo de tempo, como "02:00:00" (120 minutos).
Nível de isolamento: especifica o comportamento de bloqueio de transação para a fonte SQL. Os valores permitidos são: Leitura confirmada, Leitura não confirmada, Leitura repetível, Serializável, Instantâneo. Se não for especificado, o nível de isolamento padrão do banco de dados será usado. Consulte IsolationLevel Enum para obter mais detalhes.
Opção de partição: especifique as opções de particionamento de dados usadas para carregar dados do Amazon RDS for SQL Server. Os valores permitidos são: Nenhum (padrão), Partições físicas da tabela e Intervalo dinâmico. Quando uma opção de partição é habilitada (ou seja, não Nenhuma), o grau de paralelismo para carregar dados simultaneamente do Amazon RDS for SQL Server é controlado pela guia Grau de paralelismo de cópia na guia Configurações de atividade de cópia.
- Nenhum: escolha esta configuração para não usar uma partição.
- Partições físicas da tabela: Ao usar uma partição física, a coluna e o mecanismo da partição são determinados automaticamente com base na sua definição de tabela física.
- Intervalo dinâmico: Ao usar a consulta com paralelo habilitado, o parâmetro de partição de intervalo (?DfDynamicRangePartitionCondition) é necessário. Exemplo de consulta: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition.
  - Nome da coluna da partição: especifique o nome da coluna de origem no tipo inteiro ou data/data/hora (int, smallint, bigint, date, datetime2smalldatetimedatetime, , ou datetimeoffset) que é usado pelo particionamento de intervalo para cópia paralela. Se não for especificado, o índice ou a chave primária da tabela será detetado automaticamente e usado como a coluna de partição.
    
    Se você usar uma consulta para recuperar os dados de origem, conecte ?DfDynamicRangePartitionCondition a cláusula WHERE. Para obter um exemplo, consulte a seção Cópia paralela do banco de dados SQL.
  - Limite superior da partição: especifique o valor máximo da coluna de partição para a divisão do intervalo de partições. Esse valor é usado para decidir a passada da partição, não para filtrar as linhas na tabela. Todas as linhas na tabela ou no resultado da consulta serão particionadas e copiadas. Se não for especificado, a atividade de cópia detetará automaticamente o valor. Para obter um exemplo, consulte a seção Cópia paralela do banco de dados SQL.
  - Limite inferior da partição: especifique o valor mínimo da coluna de partição para a divisão do intervalo de partições. Esse valor é usado para decidir a passada da partição, não para filtrar as linhas na tabela. Todas as linhas na tabela ou no resultado da consulta serão particionadas e copiadas. Se não for especificado, a atividade de cópia detetará automaticamente o valor. Para obter um exemplo, consulte a seção Cópia paralela do banco de dados SQL.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último.

Tenha em conta os seguintes pontos:

Se Query for especificado para a origem, a atividade de cópia executará essa consulta na origem do Amazon RDS for SQL Server para obter os dados. Você também pode especificar um procedimento armazenado especificando os parâmetros Nome do procedimento armazenado e Procedimento armazenado se o procedimento armazenado usar parâmetros.
Ao usar o procedimento armazenado na origem para recuperar dados, observe se o procedimento armazenado for projetado como retornando esquema diferente quando um valor de parâmetro diferente for passado, você poderá encontrar falha ou ver um resultado inesperado ao importar esquema da interface do usuário ou ao copiar dados para o banco de dados SQL com a criação automática de tabelas.

Mapeamento

Para Configuração da guia Mapeamento , vá para Configurar seus mapeamentos na guia Mapeamento.

Definições

Para Configuração da guia Configurações , vá para Configurar suas outras configurações na guia Configurações.

Cópia paralela do banco de dados SQL

O conector do Amazon RDS para SQL Server na atividade de cópia fornece particionamento de dados interno para copiar dados em paralelo. Você pode encontrar opções de particionamento de dados na guia Origem da atividade de cópia.

Quando você habilita a cópia particionada, a atividade de cópia executa consultas paralelas na origem do Amazon RDS for SQL Server para carregar dados por partições. O grau paralelo é controlado pelo Grau de paralelismo de cópia na guia Configurações de atividade de cópia. Por exemplo, se você definir Grau de paralelismo de cópia como quatro, o serviço gerará e executará simultaneamente quatro consultas com base na opção e nas configurações de partição especificadas, e cada consulta recuperará uma parte dos dados do Amazon RDS for SQL Server.

Sugere-se que você habilite a cópia paralela com particionamento de dados, especialmente quando carrega uma grande quantidade de dados do Amazon RDS for SQL Server. A seguir estão sugeridas configurações para diferentes cenários. Ao copiar dados para o armazenamento de dados baseado em arquivo, é recomendável gravar em uma pasta como vários arquivos (especifique apenas o nome da pasta), caso em que o desempenho é melhor do que gravar em um único arquivo.

Cenário	Configurações sugeridas
Carga completa a partir de uma mesa grande, com divisórias físicas.	Opção de partição: Partições físicas da tabela. Durante a execução, o serviço deteta automaticamente as partições físicas e copia os dados por partições. Para verificar se a sua tabela tem partição física ou não, pode consultar esta consulta.
Carga completa a partir de uma tabela grande, sem partições físicas, enquanto com uma coluna inteira ou datetime para particionamento de dados.	Opções de partição: Partição de intervalo dinâmico. Coluna de partição (opcional): especifique a coluna usada para particionar dados. Se não for especificado, a coluna de chave primária será usada. Limite superior da partição e limite inferior da partição (opcional): Especifique se deseja determinar o passo da partição. Isso não é para filtrar as linhas na tabela, todas as linhas na tabela serão particionadas e copiadas. Se não for especificado, a atividade de cópia deteta automaticamente os valores e pode levar muito tempo, dependendo dos valores MIN e MAX. Recomenda-se fornecer limite superior e limite inferior. Por exemplo, se a coluna de partição "ID" tiver valores que variam de 1 a 100 e você definir o limite inferior como 20 e o limite superior como 80, com cópia paralela como 4, o serviço recuperará dados por 4 partições - IDs no intervalo <=20, [21, 50], [51, 80] e >=81, respectivamente.
Carregue uma grande quantidade de dados usando uma consulta personalizada, sem partições físicas, enquanto com uma coluna inteira ou data/data/hora para particionamento de dados.	Opções de partição: Partição de intervalo dinâmico. Consulta: `SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>`. Coluna de partição: especifique a coluna usada para particionar dados. Limite superior da partição e limite inferior da partição (opcional): Especifique se deseja determinar o passo da partição. Isso não é para filtrar as linhas na tabela, todas as linhas no resultado da consulta serão particionadas e copiadas. Se não for especificado, a atividade de cópia detetará automaticamente o valor. Por exemplo, se a coluna de partição "ID" tiver valores que variam de 1 a 100 e você definir o limite inferior como 20 e o limite superior como 80, com cópia paralela como 4, o serviço recuperará dados por 4 partições - IDs no intervalo <=20, [21, 50], [51, 80] e >=81, respectivamente. Aqui estão mais consultas de exemplo para diferentes cenários: • Consulte toda a tabela: `SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition` • Consulta a partir de uma tabela com seleção de colunas e filtros adicionais de cláusula where: `SELECT <column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>` • Consulta com subconsultas: `SELECT <column_list> FROM (<your_sub_query>) AS T WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>` • Consulta com partição em subconsulta: `SELECT <column_list> FROM (SELECT <your_sub_query_column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition) AS T`

Práticas recomendadas para carregar dados com a opção de partição:

Escolha uma coluna distinta como coluna de partição (como chave primária ou chave exclusiva) para evitar distorção de dados.
Se a tabela tiver partição interna, use a opção de partição Partições físicas da tabela para obter um melhor desempenho.

Exemplo de consulta para verificar a partição física

SELECT DISTINCT s.name AS SchemaName, t.name AS TableName, pf.name AS PartitionFunctionName, c.name AS ColumnName, iif(pf.name is null, 'no', 'yes') AS HasPartition
FROM sys.tables AS t
LEFT JOIN sys.objects AS o ON t.object_id = o.object_id
LEFT JOIN sys.schemas AS s ON o.schema_id = s.schema_id
LEFT JOIN sys.indexes AS i ON t.object_id = i.object_id 
LEFT JOIN sys.index_columns AS ic ON ic.partition_ordinal > 0 AND ic.index_id = i.index_id AND ic.object_id = t.object_id 
LEFT JOIN sys.columns AS c ON c.object_id = ic.object_id AND c.column_id = ic.column_id 
LEFT JOIN sys.partition_schemes ps ON i.data_space_id = ps.data_space_id 
LEFT JOIN sys.partition_functions pf ON pf.function_id = ps.function_id 
WHERE s.name='[your schema]' AND t.name = '[your table name]'

Se a tabela tiver partição física, você verá "HasPartition" como "sim" como a seguir.

Captura de ecrã do resultado da consulta SQL.

Resumo da tabela

Consulte a tabela a seguir para obter o resumo e mais informações sobre a atividade de cópia do Amazon RDS for SQL Server.

Fonte da informação

Nome	Descrição	valor	Necessário	Propriedade de script JSON
Tipo de armazenamento de dados	Seu tipo de armazenamento de dados.	Externa	Sim	/
Ligação	Sua conexão com o armazenamento de dados de origem.	< A sua ligação >	Sim	ligação
Tipo de ligação	O seu tipo de ligação. Selecione Amazon RDS for SQL Server.	Amazon RDS para SQL Server	Sim	/
Utilizar consulta	A consulta SQL personalizada para ler dados.	• Tabela • Consulta • Procedimento armazenado	Sim	/
Tabela	Sua tabela de dados de origem.	< Nome da tabela de destino>	Não	Esquema tabela
Consulta	A consulta SQL personalizada para ler dados.	< a sua questão >	Não	sqlReaderQuery
Nome do procedimento armazenado	Esta propriedade é o nome do procedimento armazenado que lê dados da tabela de origem. A última instrução SQL deve ser uma instrução SELECT no procedimento armazenado.	< nome do procedimento armazenado >	Não	sqlReaderStoredProcedureName
Parâmetro do procedimento armazenado	Esses parâmetros são para o procedimento armazenado. Os valores permitidos são pares de nome ou valor. Os nomes e o invólucro dos parâmetros devem corresponder aos nomes e invólucros dos parâmetros do procedimento armazenado.	< Pares de nome ou valor >	Não	storedProcedureParameters
Tempo limite da consulta	O tempo limite para a execução do comando de consulta.	timespan (o padrão é 120 minutos)	Não	queryTimeout
Nível de isolamento	Especifica o comportamento de bloqueio de transação para a fonte SQL.	• Ler comprometido • Ler sem compromisso • Leitura repetível • Serializável • Instantâneo	Não	isolationLevel: • ReadCommitted • ReadUncommitted • Leitura repetível • Serializável • Instantâneo
Opção de partição	As opções de particionamento de dados usadas para carregar dados do Amazon RDS for SQL Server.	• Nenhum (padrão) • Divisórias físicas de mesa • Alcance dinâmico	Não	partitionOption: • Nenhum (padrão) • PhysicalPartitionsOfTable • Gama dinâmica
Nome da coluna da partição	O nome da coluna de origem no tipo inteiro ou data/data/hora (`int`, `smallint`, `bigint`, `date`, `datetime2smalldatetimedatetime`, , ou `datetimeoffset`) que é usado pelo particionamento de intervalo para cópia paralela. Se não for especificado, o índice ou a chave primária da tabela será detetado automaticamente e usado como a coluna de partição. Se você usar uma consulta para recuperar os dados de origem, conecte `?DfDynamicRangePartitionCondition` a cláusula WHERE.	< os nomes das colunas da sua partição >	Não	partitionColumnName
Limite superior da partição	O valor máximo da coluna de partição para divisão do intervalo de partições. Esse valor é usado para decidir a passada da partição, não para filtrar as linhas na tabela. Todas as linhas na tabela ou no resultado da consulta serão particionadas e copiadas. Se não for especificado, a atividade de cópia detetará automaticamente o valor.	< O limite superior da sua partição >	Não	partiçãoUpperBound
Limite inferior da partição	O valor mínimo da coluna de partição para divisão do intervalo de partições. Esse valor é usado para decidir a passada da partição, não para filtrar as linhas na tabela. Todas as linhas na tabela ou no resultado da consulta serão particionadas e copiadas. Se não for especificado, a atividade de cópia detetará automaticamente o valor.	< o limite inferior da sua partição >	Não	partiçãoLowerBound
Colunas adicionais	Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último.	• Nome • Valor	Não	adicionaisColunas: • nome • valor

Visão geral do Amazon RDS for SQL Server

Partilhar via

Como configurar o Amazon RDS para SQL Server na atividade de cópia

Configuração suportada

Geral

Origem

Mapeamento

Definições

Cópia paralela do banco de dados SQL

Exemplo de consulta para verificar a partição física

Resumo da tabela

Fonte da informação

Comentários

Recursos adicionais

Partilhar via

Como configurar o Amazon RDS para SQL Server na atividade de cópia

Configuração suportada

Geral

Origem

Mapeamento

Definições

Cópia paralela do banco de dados SQL

Exemplo de consulta para verificar a partição física

Resumo da tabela

Fonte da informação

Conteúdos relacionados

Comentários

Recursos adicionais