Compartilhar via


Interoperabilidade e usabilidade do data lakehouse

Este artigo aborda os princípios de arquitetura do pilar de interoperabilidade e usabilidade, referindo-se à interação do lakehouse com usuários e outros sistemas. Uma das ideias fundamentais do lakehouse é proporcionar uma ótima experiência do usuário para todas as personas que trabalham com ele e poder interagir com um amplo ecossistema de sistemas externos.

  • Interoperabilidade é a capacidade de um sistema trabalhar e integrar-se a outros sistemas. Isso implica interação entre diferentes componentes e produtos, possivelmente de vários fornecedores e entre versões passadas e futuras do mesmo produto.
  • Usabilidade é a medida de quão bem um sistema permite que os usuários executem tarefas com segurança, eficácia e eficiência.

Diagrama de arquitetura lakehouse de interoperabilidade e usabilidade para Databricks.

Seguir os princípios deste pilar ajuda a:

  • Obter uma experiência de usuário consistente e colaborativa.
  • Aproveitar as sinergias entre nuvens.
  • Simplificar a integração de e para o lakehouse.
  • Reduzir os custos de treinamento e habilitação.

E, por fim, levar a um tempo de retorno mais rápido.

Princípios de interoperabilidade e usabilidade

  1. Definir padrões para integração

    A integração tem diferentes aspectos e pode ser feita de várias maneiras. Para evitar a proliferação de ferramentas e abordagens, é necessário definir as melhores práticas e fornecer uma lista de ferramentas e conectores de preferência e com bom suporte.

    Um dos principais princípios de arquitetura são a modularidade e o acoplamento flexível, em vez da integração total. Isso reduz as dependências entre componentes e cargas de trabalho, ajuda a eliminar efeitos colaterais e permite o desenvolvimento independente em escalas de tempo diferentes. Use conjuntos de dados e seu esquema como um contrato. Separe cargas de trabalho como trabalhos de estruturação de dados (como carregar e transformar dados em um data lake) de trabalhos de agregação de valor (por exemplo, relatórios, painéis e engenharia de recursos de ciência de dados). Defina um catálogo de dados central com diretrizes para formatos de dados, qualidade de dados e ciclo de vida de dados.

  2. Use interfaces abertas e formatos de dados abertos

    Muitas vezes, soluções são desenvolvidas onde os dados só podem ser acessados por meio de um sistema específico. Isso pode levar ao bloqueio de fornecedor, mas também pode se tornar um grande fator de custo se o acesso a dados por meio desse sistema estiver sujeito a taxas de licença. O uso de interfaces e formatos de dados abertos ajuda a evitar isso. Eles também simplificam a integração com sistemas existentes e abrem um ecossistema de parceiros que já integraram suas ferramentas ao lakehouse.

    Se você usar ecossistemas de código aberto, como Python ou R para ciência de dados, ou Spark ou ANSI SQL para acesso a dados e controle de direitos de acesso, terá mais facilidade ao encontrar pessoal para projetos. Isso também simplificará possíveis migrações de e para uma plataforma.

  3. Simplifique a implementação de novos casos de uso

    Para aproveitar ao máximo os dados no data lake, os usuários devem ser capazes de implantar facilmente seus casos de uso na plataforma. Isso começa com processos enxutos em torno do acesso à plataforma e do gerenciamento de dados. Por exemplo, o acesso de autoatendimento à plataforma ajuda a impedir que uma equipe central se torne um gargalo. Ambientes compartilhados e blueprints predefinidos para implantar novos ambientes garantem que a plataforma esteja rapidamente disponível para qualquer usuário de negócios.

  4. Garantir a consistência e a usabilidade dos dados

    Duas atividades importantes em uma plataforma de dados são publicação de dados e consumo de dados. Do ponto de vista da publicação, os dados devem ser oferecidos como um produto. Os distribuidores precisam seguir um ciclo de vida definido com os consumidores em mente e os dados precisam ser claramente definidos com esquemas gerenciados, descrições e assim por diante.

    Também é importante fornecer dados semanticamente consistentes para que os consumidores possam facilmente entender e combinar corretamente diferentes conjuntos de dados. Além disso, todos os dados devem ser facilmente detectáveis e acessíveis aos consumidores por meio de um catálogo central com metadados e linhagem de dados devidamente coletados.

Próximo: Melhores práticas de interoperabilidade e usabilidade

Consulte Melhores práticas de interoperabilidade e usabilidade.