Conectar-se a StreamSets
Importante
Esta funcionalidade está em Pré-visualização Pública.
O StreamSets ajuda você a gerenciar e monitorar seu fluxo de dados durante todo o seu ciclo de vida. A integração nativa do StreamSets com o Azure Databricks e o Delta Lake permite que você extraia dados de várias fontes e gerencie seus pipelines facilmente.
Para uma demonstração geral de StreamSets, assista ao seguinte vídeo do YouTube (10 minutos).
Aqui estão as etapas para usar StreamSets com o Azure Databricks.
Etapa 1: Gerar um token de acesso pessoal Databricks
O StreamSets autentica com o Azure Databricks usando um token de acesso pessoal do Azure Databricks.
Nota
Como prática recomendada de segurança, quando você se autentica com ferramentas, sistemas, scripts e aplicativos automatizados, o Databricks recomenda que você use tokens de acesso pessoal pertencentes a entidades de serviço em vez de usuários do espaço de trabalho. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.
Etapa 2: Configurar um cluster para dar suporte às necessidades de integração
Os StreamSets gravarão dados em um caminho de Armazenamento do Azure Data Lake e o cluster de integração do Azure Databricks lerá dados desse local. Portanto, o cluster de integração requer acesso seguro ao caminho de Armazenamento do Azure Data Lake.
Acesso seguro a um caminho de Armazenamento do Azure Data Lake
Para proteger o acesso aos dados no Azure Data Lake Storage (ADLS), você pode usar uma chave de acesso da conta de armazenamento do Azure (recomendado) ou uma entidade de serviço do Microsoft Entra ID.
Usar uma chave de acesso da conta de armazenamento do Azure
Você pode configurar uma chave de acesso de conta de armazenamento no cluster de integração como parte da configuração do Spark. Certifique-se de que a conta de armazenamento tenha acesso ao contêiner e ao sistema de arquivos ADLS usados para preparar dados e ao contêiner e sistema de arquivos ADLS onde você deseja gravar as tabelas Delta Lake. Para configurar o cluster de integração para usar a chave, siga as etapas em Conectar-se ao Azure Data Lake Storage Gen2 e Blob Storage.
Usar uma entidade de serviço do Microsoft Entra ID
Você pode configurar uma entidade de serviço no cluster de integração do Azure Databricks como parte da configuração do Spark. Verifique se a entidade de serviço tem acesso ao contêiner ADLS usado para dados de preparo e ao contêiner ADLS onde você deseja escrever as tabelas Delta. Para configurar o cluster de integração para usar a entidade de serviço, siga as etapas em Access ADLS Gen2 com entidade de serviço.
Especificar a configuração do cluster
Defina o Modo de Cluster como Padrão.
Defina Databricks Runtime Version como Runtime: 6.3 ou superior.
Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à sua configuração do Spark:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Configure seu cluster dependendo de suas necessidades de integração e dimensionamento.
Para obter detalhes de configuração de cluster, consulte Referência de configuração de computação.
Consulte Obter detalhes de conexão para um recurso de computação do Azure Databricks para obter as etapas para obter a URL JDBC e o caminho HTTP.
Etapa 3: Obter detalhes de conexão JDBC e ODBC para se conectar a um cluster
Para conectar um cluster do Azure Databricks a StreamSets, você precisa das seguintes propriedades de conexão JDBC/ODBC:
- JDBC URL
- Caminho HTTP
Etapa 4: Obter StreamSets para Azure Databricks
Inscreva-se no StreamSets for Databricks, se ainda não tiver uma conta StreamSets. Você pode começar gratuitamente e atualizar quando estiver pronto; consulte Preços da plataforma StreamSets DataOps.
Etapa 5: Saiba como usar StreamSets para carregar dados no Delta Lake
Comece com um pipeline de amostra ou confira as soluções StreamSets para saber como criar um pipeline que ingere dados no Delta Lake.