Partilhar via


Princípios orientadores para a casa do lago

Os princípios orientadores são regras de nível zero que definem e influenciam sua arquitetura. Para construir um data lakehouse que ajude sua empresa a ter sucesso agora e no futuro, o consenso entre as partes interessadas em sua organização é fundamental.

Organize dados e ofereça dados confiáveis como produtos

A curadoria de dados é essencial para criar um data lake de alto valor para BI e ML/AI. Trate os dados como um produto com uma definição, esquema e ciclo de vida claros. Garanta a consistência semântica e que a qualidade dos dados melhore de camada para camada, para que os usuários corporativos possam confiar totalmente nos dados.

Organize dados e ofereça dados confiáveis como produtos

A curadoria de dados estabelecendo uma arquitetura em camadas (ou multi-hop) é uma prática recomendada crítica para o lakehouse, pois permite que as equipes de dados estruturem os dados de acordo com os níveis de qualidade e definam funções e responsabilidades por camada. Uma abordagem comum de criação de camadas é:

  • Camada de ingestão: Os dados de origem são ingeridos na casa do lago na primeira camada e devem ser persistidos lá. Quando todos os dados downstream são criados a partir da camada de ingestão, é possível reconstruir as camadas subsequentes a partir dessa camada, se necessário.
  • Camada com curadoria: O objetivo da segunda camada é armazenar dados limpos, refinados, filtrados e agregados. O objetivo dessa camada é fornecer uma base sólida e confiável para análises e relatórios em todas as funções e funções.
  • Camada final: A terceira camada é criada em torno das necessidades do negócio ou do projeto, fornece uma visão diferente como produtos de dados para outras unidades de negócios ou projetos, preparando dados em torno de necessidades de segurança (por exemplo, dados anonimizados) ou otimizando para desempenho (com visualizações pré-agregadas). Os produtos de dados nessa camada são vistos como a verdade para o negócio.

Os pipelines em todas as camadas precisam garantir que as restrições de qualidade de dados sejam atendidas, o que significa que os dados são precisos, completos, acessíveis e consistentes em todos os momentos, mesmo durante leituras e gravações simultâneas. A validação de novos dados acontece no momento da entrada de dados na camada selecionada, e as seguintes etapas de ETL trabalham para melhorar a qualidade desses dados. A qualidade dos dados deve melhorar à medida que os dados progridem através das camadas e, como tal, a confiança nos dados aumenta subsequentemente do ponto de vista comercial.

Elimine silos de dados e minimize a movimentação de dados

Não crie cópias de um conjunto de dados com processos de negócios que dependem dessas cópias diferentes. As cópias podem se tornar silos de dados que ficam fora de sincronia, levando a uma menor qualidade do seu data lake e, finalmente, a insights desatualizados ou incorretos. Além disso, para compartilhar dados com parceiros externos, use um mecanismo de compartilhamento empresarial que permita o acesso direto aos dados de forma segura.

Elimine silos de dados e minimize a movimentação de dados

Para tornar clara a distinção entre uma cópia de dados e um silo de dados: uma cópia autônoma ou descartável de dados não é prejudicial por si só. Às vezes, é necessário para aumentar a agilidade, a experimentação e a inovação. No entanto, se essas cópias se tornarem operacionais com produtos de dados corporativos downstream dependentes delas, elas se tornarão silos de dados.

Para evitar silos de dados, as equipes de dados geralmente tentam criar um mecanismo ou pipeline de dados para manter todas as cópias sincronizadas com o original. Como é improvável que isso aconteça de forma consistente, a qualidade dos dados acaba se degradando. Esta situação também pode conduzir a custos mais elevados e a uma perda significativa de confiança por parte dos utilizadores. Por outro lado, vários casos de uso de negócios exigem compartilhamento de dados com parceiros ou fornecedores.

Um aspeto importante é compartilhar de forma segura e confiável a versão mais recente do conjunto de dados. As cópias do conjunto de dados muitas vezes não são suficientes, porque podem ficar fora de sincronia rapidamente. Em vez disso, os dados devem ser partilhados através de ferramentas de partilha de dados empresariais.

Democratizar a criação de valor através do autosserviço

O melhor data lake não pode fornecer valor suficiente, se os usuários não puderem acessar a plataforma ou os dados para suas tarefas de BI e ML/AI facilmente. Diminua as barreiras de acesso a dados e plataformas para todas as unidades de negócios. Considere processos de gerenciamento de dados enxutos e forneça acesso de autosserviço para a plataforma e os dados subjacentes.

Democratizar a criação de valor através do autosserviço

As empresas que migraram com sucesso para uma cultura orientada por dados prosperarão. Isso significa que cada unidade de negócios deriva suas decisões de modelos analíticos ou da análise de seus próprios dados ou fornecidos centralmente. Para os consumidores, os dados têm de ser facilmente detetáveis e acessíveis de forma segura.

Um bom conceito para produtores de dados é "dados como um produto": os dados são oferecidos e mantidos por uma unidade de negócios ou parceiro de negócios como um produto e consumidos por outras partes com controle de permissão adequado. Em vez de depender de uma equipe central e de processos de solicitação potencialmente lentos, esses produtos de dados devem ser criados, oferecidos, descobertos e consumidos em uma experiência de autoatendimento.

No entanto, não são apenas os dados que importam. A democratização dos dados requer as ferramentas certas para permitir que todos produzam ou consumam e compreendam os dados. Para isso, você precisa que o data lakehouse seja uma plataforma moderna de dados e IA que forneça a infraestrutura e as ferramentas para a construção de produtos de dados sem duplicar o esforço de configurar outra pilha de ferramentas.

Adotar uma estratégia de governança de dados em toda a organização

Os dados são um ativo crítico de qualquer organização, mas você não pode dar a todos acesso a todos os dados. O acesso aos dados deve ser gerenciado ativamente. Controle de acesso, auditoria e rastreamento de linhagem são fundamentais para o uso correto e seguro dos dados.

Adotar uma estratégia de governança de dados em toda a organização

A governança de dados é um tema amplo. A casa do lago abrange as seguintes dimensões:

  • Qualidade dos dados

    O pré-requisito mais importante para relatórios, resultados de análise e modelos corretos e significativos são dados de alta qualidade. A garantia de qualidade (QA) precisa existir em torno de todas as etapas do pipeline. Exemplos de como implementar isso incluem ter contratos de dados, cumprir SLAs, manter esquemas estáveis e evolui-los de forma controlada.

  • Catálogo de dados

    Outro aspeto importante é a descoberta de dados: os usuários de todas as áreas de negócios, especialmente em um modelo de autoatendimento, devem ser capazes de descobrir dados relevantes facilmente. Portanto, um lakehouse precisa de um catálogo de dados que cubra todos os dados relevantes para os negócios. Os objetivos principais de um catálogo de dados são os seguintes:

    • Certifique-se de que o mesmo conceito de negócio é uniformemente chamado e declarado em toda a empresa. Você pode pensar nele como um modelo semântico na camada selecionada e final.
    • Rastreie a linhagem de dados com precisão para que os usuários possam explicar como esses dados chegaram à sua forma atual.
    • Manter metadados de alta qualidade, o que é tão importante quanto os próprios dados para o uso adequado dos dados.
  • Controlo de acesso

    Como a criação de valor a partir dos dados na lakehouse acontece em todas as áreas de negócios, a lakehouse deve ser construída com segurança como um cidadão de primeira classe. As empresas podem ter uma política de acesso a dados mais aberta ou seguir estritamente o princípio dos privilégios mínimos. Independentemente disso, os controles de acesso a dados devem estar em vigor em todas as camadas. É importante implementar esquemas de permissão de nível fino desde o início (controle de acesso em nível de coluna e linha, controle de acesso baseado em função ou atributo). As empresas podem começar com regras menos rigorosas. Mas, à medida que a plataforma lakehouse cresce, todos os mecanismos e processos para um regime de segurança mais sofisticado já devem estar em vigor. Além disso, todo o acesso aos dados na casa do lago deve ser regido por logs de auditoria desde o início.

Incentivar interfaces e formatos abertos

As interfaces abertas e os formatos de dados são cruciais para a interoperabilidade entre a casa do lago e outras ferramentas. Ele simplifica a integração com sistemas existentes e também abre um ecossistema de parceiros que integraram suas ferramentas com a plataforma.

Incentivar interfaces e formatos abertos

As interfaces abertas são essenciais para permitir a interoperabilidade e evitar a dependência de um único fornecedor. Tradicionalmente, os fornecedores construíam tecnologias proprietárias e interfaces fechadas que limitavam as empresas na forma como podem armazenar, processar e partilhar dados.

Construir com base em interfaces abertas ajuda-o a construir para o futuro:

  • Ele aumenta a longevidade e a portabilidade dos dados para que você possa usá-los com mais aplicativos e para mais casos de uso.
  • Ele abre um ecossistema de parceiros que podem rapidamente aproveitar as interfaces abertas para integrar suas ferramentas na plataforma lakehouse.

Finalmente, ao padronizar os formatos abertos para os dados, os custos totais serão significativamente menores; Pode-se acessar os dados diretamente no armazenamento em nuvem sem a necessidade de canalizá-los através de uma plataforma proprietária que pode incorrer em altos custos de saída e computação.

Construa para dimensionar e otimizar o desempenho e o custo

Os dados inevitavelmente continuam a crescer e a tornar-se mais complexos. Para equipar sua organização para necessidades futuras, sua casa do lago deve ser capaz de escalar. Por exemplo, você deve ser capaz de adicionar novos recursos facilmente sob demanda. Os custos devem limitar-se ao consumo real.

Construa para dimensionar e otimizar o desempenho e o custo

Processos de ETL padrão, relatórios de negócios e painéis geralmente têm uma necessidade de recursos previsível de uma perspetiva de memória e computação. No entanto, novos projetos, tarefas sazonais ou abordagens modernas, como treinamento de modelos (churn, previsão, manutenção) geram picos de necessidade de recursos. Para permitir que uma empresa execute todas essas cargas de trabalho, é necessária uma plataforma escalável para memória e computação. Novos recursos devem ser adicionados facilmente sob demanda, e apenas o consumo real deve gerar custos. Assim que o pico terminar, os recursos podem ser novamente libertados e os custos reduzidos em conformidade. Muitas vezes, isso é chamado de dimensionamento horizontal (menos ou mais nós) e dimensionamento vertical (nós maiores ou menores).

O dimensionamento também permite que as empresas melhorem o desempenho das consultas selecionando nós com mais recursos ou clusters com mais nós. Mas, em vez de fornecer permanentemente grandes máquinas e clusters, eles podem ser provisionados sob demanda apenas pelo tempo necessário para otimizar a relação entre desempenho geral e custo. Outro aspeto da otimização é o armazenamento versus recursos de computação. Como não há uma relação clara entre o volume de dados e as cargas de trabalho que usam esses dados (por exemplo, usando apenas partes dos dados ou fazendo cálculos intensivos em dados pequenos), é uma boa prática se estabelecer em uma plataforma de infraestrutura que separa recursos de armazenamento e computação.