Opções de configuração avançada no Azure Synapse Link
O Azure Synapse Link oferece várias formas de escrever e ler os seus dados para adaptação a vários cenários analíticos. Dependendo do seu cenário analítico, você pode escolher uma configuração específica nas opções abaixo.
Cenário | Aplica-se ao | Opções de configuração disponíveis |
---|---|---|
Relatórios operacionais | Tabelas do Dataverse, tabelas de finanças e operações e entidades | Synapse Analytics com a opção Delta lake fornece melhores tempos de consulta resposta especialmente aplicáveis para consultar grandes quantidades de dados. Mais informações: opção Synapse Link com Delta lake |
Relatórios operacionais | Apenas tabelas do Dataverse | Synapse Link com opção de configuração "Atualização no local" fornece arquivos CSV em seu data lake que são atualizados quase em tempo real Esta é uma opção de legado disponível para tabelas do Dataverse. Esta opção não é suportada para tabelas de aplicações de finanças e operações |
Integração de dados | Tabelas do Dataverse e tabelas de finanças e operações e entidades | A opção "Acrescentar apenas fornece ficheiros CSV que contêm dados incrementais. Você pode criar pipelines que consomem dados incrementais e preenchem sistemas downstream A caraterística Partição de dados específica do utilizador pelo utilizador permite escolher uma estratégia de criação de partições de dados personalizada especificamente para tabelas do Dataverse. Os dados da tabela de finanças e operações são particionados pelo sistema com base na estratégia de partição apropriada. Esta opção não está disponível para aplicações de finanças e operações |
Nota
O Azure Synapse Link for Dataverse era anteriormente conhecido como o serviço exportar para data lake. O serviço foi renomeado a partir de maio de 2021 e continuará a exportar dados para o serviço Azure Data Lake Storage, bem como para o Azure Synapse Analytics. A partir de setembro de 2023, o Azure Synapse Link também permite que escolha dados das aplicações de finanças e operações do Dynamics 365. Nem todos os padrões de integração são suportados com aplicações de finanças e operações. Para obter orientação sobre a transição da caraterística exportar para o data lake em aplicações de finanças e operações para o Synapse Link, aceda ao Guia de transição.
Este artigo aborda as definições de configuração avançadas disponíveis para Dataverse tabelas. Essas opções não estão disponíveis para aplicações de finanças e operações.
- Atualizações no local versus escritas Acrescentar apenas.
- Criação de partições de dados especificada pelo utilizador.
Atualizações no local vs. escritas apenas para acrescentar
Ao escrever dados de tabela do Dataverse para o Azure data lake, com base no valor createdOn
, que é a data e hora em que o registo foi criado, existem duas definições diferentes para escolher. Estas são, Atualização colocada e Só anexar.
A predefinição (para tabelas onde createdOn
está disponível) é fazer uma atualização colocada ou upsert (atualizar ou inserir) dos dados incrementais no destino. Se a alteração for nova e não existir uma linha correspondente no lake, no caso de uma criação, os ficheiros de destino são digitalizados e as alterações são inseridas na partição de ficheiros correspondente no lake. Se a alteração for uma atualização e existir uma linha no lake, o ficheiro correspondente no lake é atualizado, em vez de inserido, com os dados incrementais. Por outras palavras, a predefinição para todas as alterações CUD (criar, atualizar, eliminar) em tabelas do Dataverse, onde createdOn
está disponível, é fazer uma atualização colocada no destino, no Azure data lake.
Pode alternar o comportamento predefinido de uma atualização colocada utilizando uma definição opcional chamada Só anexar. Em vez de uma Atualização colocada, no modo Só anexar, os dados incrementais das tabelas do Dataverse são anexados à partição de ficheiros correspondente no lake. Esta é uma definição por tabela e está disponível como caixa de verificação em Avançadas>Mostrar definições de configuração avançadas. Para tabelas do Dataverse com Só anexar ativado, todas as alterações CUD são incrementalmente anexadas aos ficheiros de destino correspondentes no lake. Quando escolhe esta opção, a estratégia de partição assume a predefinição como Ano e, quando os dados são escritos para o data lake, são particionados numa base anual. Só anexar é também a predefinição para tabelas do Dataverse que não têm o valor createdOn
.
Esta tabela descreve como as linhas são processadas no lake contra eventos CUD para cada uma das opções de escrita de dados.
Evento | Atualização colocada | Acrescentar apenas |
---|---|---|
Criar | A linha é inserida no ficheiro de partição e baseia-se no valor createdOn da linha. |
A linha é adicionada ao fim do ficheiro de partição e baseia-se no valor createdOn do registo. |
Atualizar | Se a linha existir no ficheiro de partição, é substituída ou atualizada por dados atualizados. Se não existe, está inserido no ficheiro. | A linha, juntamente com a versão atualizada, é adicionada ao fim do ficheiro de partição. |
Delete | Se a linha existe no ficheiro de partição, é removida do ficheiro. | A linha é adicionada ao fim do ficheiro de partição com IsDelete column = True . |
Nota
Para as tabelas Dataverse em que Só anexar está ativado, a eliminação de uma linha na origem não eliminará nem removerá a linha do lake. Em vez disso, a linha eliminada é anexada como uma nova linha no lago e a coluna isDeleted
é definida como Verdadeiro.
A leitura de dados ainda não alocados (ALLOW_INCONSISTENT_READS) para sem servidor está ativada para o modo anexar apenas. ALLOW_INCONSISTENT_READS significa que o utilizador pode ler os ficheiros que podem ser modificados constantemente enquanto a consulta SELECT
está em execução. Os resultados serão consistentes e equivalentes à leitura de um instantâneo do ficheiro. (Não é equivalente ao isolamento do instantâneo da base de dados devido ao tempo de geração de instantâneos diferente.)
Nem todas as alterações ao CUD serão capturadas em acrescentar apenas: a Synapse Link processa as alterações aos dados em grupos ou "lotes" antes de os publicar no Data Lake. Como resultado, se o utilizador efetuar alterações num curto intervalo de tempo, nem todas as alterações ao CUD serão capturadas no Data Lake.
Eis mais alguns detalhes sobre quando utilizar uma das opções.
- Atualização no local: esta opção é a predefinição e é recomendada apenas se pretender ligar diretamente aos dados no lake e precisar do estado atual (não alterações ao histórico ou incrementais). O ficheiro contém o conjunto de dados completo e pode ser utilizado através do Power BI ou copiando todo a conjunto de dados para pipelines ETL (Extrair, Transferir, Carregar).
- Só anexar: selecione esta opção se não estiver a ligar diretamente aos dados no lake e pretender copiar gradualmente dados para outro alvo utilizando os pipelines ETL. Esta opção fornece um histórico de alterações para ativar cenários de IA e ML.
Pode alternar as Mostrar definições de configuração avançadas em Avançado em Azure Synapse Link for Dataverse para personalizar a sua estratégia de partição de dados e selecionar opções para escrever no Azure Data Lake.
Criação de partições de dados
Quando escreve dados de tabela do Dataverse para o Azure Data Lake Storage com o Azure Synapse Link, as tabelas são particionadas (em vez de um único ficheiro) no lake baseado no valor createdOn
em cada linha na origem. A estratégia de partição predefinida é mensal e são criadas partições de dados no Azure data lake numa base mensal.
Com base no volume da tabela do Dataverse e na distribuição de dados, poderá optar por criar partições dos seus dados por ano. Com esta opção, quando os dados da tabela do Dataverse são escritos no Azure data lake, este será particionado anualmente com base no valor createdOn
de cada linha na origem. Para tabelas sem a coluna createdOn
, as filas de dados são particionadas num novo ficheiro a cada 5.000.000 de registos. Esta é uma definição por tabela e está disponível como caixa de verificação em Avançadas>Mostrar definições de configuração avançadas.
Mais detalhes com exemplos de como os dados são processados no lake com uma estratégia de partição anual ou mensal: