Conectar-se ao StreamSets
Importante
Esse recurso está em uma versão prévia.
Os StreamSets ajudam a gerenciar e monitorar seu fluxo de dados durante todo o ciclo de vida. A integração nativa dos StreamSets com o Azure Databricks e o Delta Lake permite que você extraia dados de várias fontes e gerencie seus pipelines facilmente.
Para ver uma demonstração geral dos StreamSets, Assista ao vídeo do YouTube a seguir (10 minutos).
Aqui estão as etapas para usar os StreamSets com o Azure Databricks.
Etapa 1: Gerar um token de acesso pessoal do Databricks
Os StreamSets autenticam com o Azure Databricks um token de acesso pessoal do Azure Databricks.
Observação
Como melhor prática de segurança, ao autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, o Databricks recomenda que você use tokens de acesso pertencentes às entidades de serviço e não aos usuários do workspace. Para criar tokens para entidades de serviço, confira Gerenciar tokens para uma entidade de serviço.
Etapa 2: Configurar um cluster para dar suporte às necessidades de integração
Os StreamSets gravarão dados em um caminho do Azure Data Lake Storage e o cluster de integração do Azure Databricks lerá os dados desse local. Portanto, o cluster de integração requer acesso seguro ao caminho do Azure Data Lake Storage.
Proteger o acesso a um caminho do Azure Data Lake Storage
Para proteger o acesso aos dados do ADLS (Azure Data Lake Storage), use uma chave de acesso da conta de armazenamento do Azure (recomendado) ou uma entidade de serviço do Microsoft Entra ID.
Usar uma chave de acesso da conta de armazenamento do Azure
É possível configurar uma chave de acesso da conta de armazenamento no cluster de integração como parte da configuração do Spark. Verifique se a conta de armazenamento tem acesso ao contêiner do ADLS e ao sistema de arquivos usado para o preparo de dados, bem como ao contêiner do ADLS e ao sistema de arquivos no qual deseja gravar as tabelas do Delta Lake. Para configurar o cluster de integração para usar a chave, siga as etapas em Conectar-se ao Azure Data Lake Storage Gen2 e Armazenamento de Blobs.
Usar uma entidade de serviço do Microsoft Entra ID
É possível configurar uma entidade de serviço no cluster de integração do Azure Databricks como parte da configuração do Spark. Verifique se a entidade de serviço tem acesso ao contêiner do ADLS usado para o preparo de dados e ao contêiner do ADLS no qual deseja gravar as tabelas Delta. Para configurar o cluster de integração a fim de usar a entidade de serviço, siga as etapas descritas em Acessar o ADLS Gen2 com uma entidade de serviço.
Especificar a configuração de cluster
Defina o Modo de Cluster como Standard.
Defina versão do Databricks Runtime para Runtime: 6.3 ou superior.
Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à configuração do Spark:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Configure o cluster de acordo com as suas necessidades de integração e de dimensionamento.
Para obter detalhes da configuração do cluster, confira Referência de configuração de computação.
Confira Obter detalhes de conexão para um recurso de computação do Azure Databricks para obter as etapas para obter a URL JDBC e o caminho HTTP.
Etapa 3: Obter os detalhes da conexão JDBC e ODBC para se conectar a um cluster
Para conectar um cluster de Azure Databricks aos StreamSets, você precisará das seguintes propriedades de conexão de JDBC/ODBC:
- URL do JDBC
- Caminho HTTP
Etapa 4: obter os StreamSets para o Azure Databricks
Inscreva-se nos StreamSets para o Databricks, se você ainda não tiver uma conta dos StreamSets. É possível começar gratuitamente e atualizar quando estiver pronto; consulte Preços da plataforma dos StreamSets do DataOps.
Etapa 5: saiba como usar os StreamSets para carregar dados no Delta Lake
Comece com um pipeline de exemplo ou confira soluções de StreamSets para saber como criar um pipeline que ingere dados no Delta Lake.