Conectar-se ao Syncsort

Artigo
12/27/2024

Importante

Esta funcionalidade está em Pré-visualização Pública.

O Syncsort ajuda a quebrar silos de dados integrando dados legados, mainframe e IBM com o Azure Databricks. Você pode facilmente extrair dados dessas fontes para o Delta Lake.

Aqui estão as etapas para usar o Syncsort com o Azure Databricks.

Etapa 1: Generate um token de acesso pessoal Databricks

O Syncsort autentica com o Azure Databricks usando um token de acesso pessoal do Azure Databricks.

Nota

Como prática recomendada de segurança, quando você se autentica com ferramentas, sistemas, scripts e aplicativos automatizados, o Databricks recomenda que você use tokens de acesso pessoal pertencentes a entidades de serviço em vez de usuários do espaço de trabalho. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.

Etapa 2: Set um cluster para dar suporte às necessidades de integração

O Syncsort gravará dados em um caminho de Armazenamento do Azure Data Lake e o cluster de integração do Azure Databricks lerá dados desse local. Portanto, o cluster de integração requer acesso seguro ao caminho de Armazenamento do Azure Data Lake.

Acesso seguro a um caminho de Armazenamento do Azure Data Lake

Para proteger o acesso aos dados no Azure Data Lake Storage (ADLS), você pode usar uma chave de acesso da conta de armazenamento do Azure (recomendado) ou uma entidade de serviço do Microsoft Entra ID.

Usar uma chave de acesso da conta de armazenamento do Azure

Você pode configurar uma chave de acesso de conta de armazenamento no cluster de integração como parte da configuração do Spark. Certifique-se de que a conta de armazenamento tenha acesso ao contentor e ao sistema de ficheiros ADLS usados para o armazenamento temporário de dados e ao contentor e sistema de ficheiros ADLS where onde pretende escrever no Delta Lake tables. Para configurar o cluster de integração para usar a chave, siga as etapas em Conectar-se ao Azure Data Lake Storage Gen2 e Blob Storage.

Usar uma entidade de serviço do Microsoft Entra ID

Você pode configurar uma entidade de serviço no cluster de integração do Azure Databricks como parte da configuração do Spark. Verifique se a entidade de serviço tem acesso ao contentor ADLS usado para dados de preparação e ao contentor ADLS where no qual você quer gravar o tablesDelta. Para configurar o cluster de integração para usar a entidade de serviço, siga as etapas em Access ADLS Gen2 com entidade de serviço.

Especificar a configuração do cluster

Set Modo de Cluster para Standard.
Set Versão de Tempo de Execução do Databricks para uma Versão de Tempo de Execução do Databricks.
Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à sua configuração do Spark:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Configure seu cluster dependendo de suas necessidades de integração e dimensionamento.

Para obter detalhes de configuração de cluster, consulte Referência de configuração de computação.

Consulte Get detalhes de conexão para um de recurso de computação do Azure Databricks para obter as etapas para obter a URL JDBC e o caminho HTTP.

Etapa 3: Obter detalhes de conexão JDBC e ODBC para se conectar a um cluster

Para conectar um cluster do Azure Databricks ao Syncsort, você precisa das seguintes propriedades de conexão JDBC/ODBC:

JDBC URL
Caminho HTTP

Etapa 4: Configurar o Syncsort com o Azure Databricks

Vá para a página de login do Databricks e do Connect for Big Data e siga as instruções.

Recursos adicionais

Suporte

Partilhar via

Conectar-se ao Syncsort

Etapa 1: Generate um token de acesso pessoal Databricks

Etapa 2: Set um cluster para dar suporte às necessidades de integração

Acesso seguro a um caminho de Armazenamento do Azure Data Lake

Usar uma chave de acesso da conta de armazenamento do Azure

Usar uma entidade de serviço do Microsoft Entra ID

Especificar a configuração do cluster

Etapa 3: Obter detalhes de conexão JDBC e ODBC para se conectar a um cluster

Etapa 4: Configurar o Syncsort com o Azure Databricks

Recursos adicionais

Comentários

Recursos adicionais