Melhores práticas para governança de dados e IA
Este artigo aborda as melhores práticas de governança de dados e IA, organizadas por princípios de arquitetura listados nas seções a seguir.
1. Unificar dados e gerenciamento de IA
Estabelecer um processo de governança de dados e IA
A governança de dados e IA é o gerenciamento da disponibilidade, usabilidade, integridade e segurança dos dados e ativos de IA de uma organização. Ao fortalecer a governança de dados e IA, as organizações podem garantir a qualidade dos ativos que são críticos para análises e tomadas de decisão precisas, ajudar a identificar novas oportunidades, melhorar a satisfação do cliente e, finalmente, aumentar a receita. Ele ajuda as organizações a cumprir as regulamentações de privacidade de dados e IA e melhorar as medidas de segurança, reduzindo o risco de violações de dados e penalidades. A governança eficaz de dados e IA também elimina redundâncias e simplifica o gerenciamento de dados, resultando em economia de custos e aumento da eficiência operacional.
Uma organização pode querer escolher qual modelo de governança combina melhor com ela:
- No modelo de governança centralizado, os seus administradores de governança são proprietários do metastore e podem tomar posse de qualquer objeto, além de conceder e revogar permissões.
- Em um modelo de governança distribuída , o catálogo ou um conjunto de catálogos é o domínio de dados. O proprietário desse catálogo pode criar e possuir todos os ativos e gerenciar a governança dentro desse domínio. Os proprietários de qualquer domínio podem operar independentemente dos proprietários de outros domínios.
A solução de governança de dados e IA Unity Catalog está integrada à Databricks Data Intelligence Platform. Ele suporta modelos de governança e ajuda a gerenciar perfeitamente dados estruturados e não estruturados, modelos de ML, notebooks, painéis e arquivos em qualquer nuvem ou plataforma. As melhores práticas do Unity Catalog ajudam a implementar a governança de dados e IA.
Gerencie metadados para todos os dados e ativos de IA em um só lugar
Os benefícios de gerenciar metadados para todos os ativos em um só lugar são semelhantes aos benefícios de manter uma única fonte de verdade para todos os seus dados. Estes incluem a redução da redundância de dados, o aumento da integridade dos dados e a eliminação de mal-entendidos devido a diferentes definições ou taxonomias. Também é mais fácil implementar políticas, padrões e regras globais com uma única fonte.
Como prática recomendada, execute a casa do lago em uma única conta com um Unity Catalog. O Unity Catalog pode gerenciar dados e volumes (arquivos arbitrários), bem como ativos de IA, como recursos e modelos de IA. O contêiner de nível superior de objetos no Catálogo Unity é um metastore . Ele armazena ativos de dados (como tabelas e exibições) e as permissões que regem o acesso a eles. Use um único metastore por região de nuvem e não acesse metastores entre regiões para evitar problemas de latência.
O metastore fornece um namespace de três níveis para estruturar dados, volumes e ativos de IA:
A Databricks recomenda o uso de catálogos para assegurar a separação na arquitetura de informações da sua organização. Muitas vezes, isso significa que os catálogos podem corresponder ao escopo do ambiente de desenvolvimento de software, equipe ou unidade de negócios.
Rastreie dados e linhagem de IA para aumentar a visibilidade dos dados
A linhagem de dados é uma ferramenta poderosa que ajuda os líderes de dados a obter maior visibilidade e compreensão dos dados em suas organizações. A linhagem de dados descreve a transformação e o refinamento dos dados da fonte para a perceção. Inclui a captura de todos os metadados e eventos relevantes associados aos dados ao longo do seu ciclo de vida, incluindo a origem do conjunto de dados, que outros conjuntos de dados foram utilizados para o criar, quem o criou e quando, que transformações foram realizadas, que outros conjuntos de dados o utilizam e muitos outros eventos e atributos.
Além disso, quando você treina um modelo em uma tabela no Unity Catalog, pode rastrear a linhagem do modelo para o(s) conjunto(s) de dados upstream no qual ele foi treinado e avaliado.
A linhagem pode ser usada para muitos casos de uso relacionados a dados:
- Conformidade e prontidão para auditoria: A linhagem de dados ajuda as organizações a rastrear a origem de tabelas e campos. Isso é importante para atender aos requisitos de muitas regulamentações de conformidade, como o Regulamento Geral de Proteção de Dados (GDPR), o California Consumer Privacy Act (CCPA), o Health Insurance Portability and Accountability Act (HIPAA), o Basel Committee on Banking Supervision (BCBS) 239 e o Sarbanes-Oxley Act (SOX).
- Análise de impacto/gestão de alterações: Os dados passam por várias transformações desde a origem até a tabela final pronta para os negócios. Compreender o impacto potencial das alterações de dados nos utilizadores a jusante torna-se importante do ponto de vista da gestão dos riscos. Esse impacto pode ser facilmente determinado usando a linhagem de dados capturada pelo Catálogo Unity.
- Garantia de qualidade de dados: Entender de onde veio um conjunto de dados e quais transformações foram aplicadas fornece um contexto muito melhor para cientistas de dados e analistas, permitindo que eles obtenham insights melhores e mais precisos.
- Depuração e diagnóstico: no caso de um resultado inesperado, a linhagem de dados ajuda as equipes de dados a executar a análise da causa raiz, rastreando o erro de volta à sua origem. Isso reduz drasticamente o tempo de solução de problemas.
O Unity Catalog captura de linhagem de dados
Adicione descrições consistentes aos seus metadados
As descrições fornecem contexto essencial para os dados. Eles ajudam os usuários a entender a finalidade e o conteúdo das tabelas e colunas de dados. Essa clareza permite que eles descubram, identifiquem e filtrem mais facilmente os dados de que precisam, o que é fundamental para a análise de dados e a tomada de decisões eficazes. As descrições podem incluir informações sobre confidencialidade de dados e conformidade. Isso ajuda as organizações a atender aos requisitos legais e regulamentares de privacidade e segurança de dados. As descrições também devem incluir informações sobre a fonte, a exatidão e a relevância dos dados. Isso ajuda a garantir a integridade dos dados e promove uma melhor colaboração entre as equipes.
Dois recursos principais no Unity Catalog suportam a descrição de tabelas e colunas. O Catálogo Unity permite:
adicionar comentários a tabelas e colunas na forma de comentários.
Você também pode adicionar um comentário gerado por IA para qualquer tabela ou coluna de tabela gerida pelo Unity Catalog para acelerar o processo. No entanto, os modelos de IA nem sempre são precisos e os comentários devem ser revisados antes de salvar. A Databricks recomenda fortemente a revisão humana dos comentários gerados por IA para verificar se há imprecisões.
adicionar tags a qualquer protegível no Unity Catalog. As tags são atributos com chaves e valores opcionais que você pode aplicar a diferentes objetos protegíveis no Unity Catalog. A marcação é útil para organizar e categorizar diferentes objetos protegíveis dentro de um metastore. O uso de tags também facilita a pesquisa e a descoberta de seus ativos de dados.
Permitir a descoberta de dados fácil para consumidores de dados
A fácil descoberta de dados permite que cientistas de dados, analistas de dados e engenheiros de dados descubram e façam referência rapidamente a dados relevantes e acelerem o tempo de valorização.
O Databricks Catalog Explorer fornece uma interface de usuário para explorar e gerenciar dados, esquemas (bancos de dados), tabelas e permissões, proprietários de dados, locais externos e credenciais. Além disso, você pode usar a guia Insights no Catalog Explorer para exibir as consultas recentes mais frequentes e usuários de qualquer tabela registrada no Catálogo Unity.
Governe os ativos de IA juntamente com os dados
A relação entre governança de dados e inteligência artificial (IA) tornou-se fundamental para o sucesso. A forma como as organizações gerenciam, protegem e usam dados impacta diretamente os resultados e as considerações das implementações de IA: você não pode ter IA sem dados de qualidade e não pode ter dados de qualidade sem governança de dados.
Governar dados e IA juntos melhora o desempenho da IA, garantindo acesso contínuo a dados atualizados e de alta qualidade, levando a uma maior precisão e melhor tomada de decisões. A quebra de silos aumenta a eficiência, permitindo uma melhor colaboração e simplificando os fluxos de trabalho, resultando em maior produtividade e custos reduzidos.
A melhoria da segurança dos dados é outro benefício, pois uma abordagem de governança unificada estabelece práticas consistentes de tratamento de dados, reduzindo vulnerabilidades e melhorando a capacidade de uma organização de proteger informações confidenciais. A conformidade com as regulamentações de privacidade de dados é mais fácil de manter quando os dados e a governança de IA são integrados, já que o tratamento de dados e os processos de IA estão alinhados com os requisitos regulatórios.
De um modo geral, uma abordagem de governação unificada promove a confiança entre as partes interessadas e garante a transparência nos processos de tomada de decisões em matéria de IA, estabelecendo políticas e procedimentos claros tanto para os dados como para a IA.
Na Databricks Data Intelligence Platform, o Unity Catalog é o componente central para governar os ativos de dados e IA:
Funcionalidade no Unity Catalog
Nos espaços de trabalho habilitados para Unity Catalog, os cientistas de dados podem criar tabelas de recursos no Unity Catalog. Essas tabelas de funcionalidades são tabelas Delta ou Delta Live Tables geridas pelo Unity Catalog.
-
Os modelos no Unity Catalog estendem os benefícios do Unity Catalog aos modelos de ML, incluindo controle de acesso centralizado, auditoria, linhagem e descoberta de modelos em espaços de trabalho. Os principais recursos dos modelos no Unity Catalog incluem governança para modelos, linhagem cronológica de modelos, versionamento de modelos e implantação de modelos por meio de aliases.
2. Unificar dados e segurança de IA
Centralize o controle de acesso para todos os dados e ativos de IA
Centralizar o controle de acesso para todos os ativos de dados é importante porque simplifica a segurança e a governança de seus dados e ativos de IA, fornecendo um local central para administrar e auditar o acesso a esses ativos. Essa abordagem ajuda a gerenciar dados e acesso a objetos de IA de forma mais eficiente, garantindo que os requisitos operacionais em torno da segregação de tarefas sejam aplicados, o que é crucial para a conformidade regulatória e a prevenção de riscos.
A Databricks Data Intelligence Platform fornece métodos de controle de acesso a dados que descrevem quais grupos ou indivíduos podem acessar quais dados. Estas são declarações de política que podem ser extremamente granulares e específicas, até à definição de cada registo a que cada indivíduo tem acesso. Ou podem ser muito expressivos e amplos, como todos os usuários financeiros podem ver todos os dados financeiros.
O Catálogo Unity centraliza os controles de acesso para todos os objetos protegíveis suportados, como tabelas, arquivos, modelos e muito mais. Cada objeto protegível no Unity Catalog tem um proprietário. O proprietário de um objeto tem todos os privilégios sobre o objeto, bem como a capacidade de conceder privilégios no objeto protegível a outros principais. O Catálogo Unity permite que você gerencie privilégiose configure de controle de acesso usando instruções DDL SQL.
O Catálogo Unity usa filtros de linha e máscaras de coluna para controle de acesso refinado. Os filtros de linha permitem aplicar um filtro a uma tabela para que as consultas subsequentes retornem apenas as linhas para as quais o predicado do filtro é avaliado como true. As máscaras de coluna permitem aplicar uma função de mascaramento a uma coluna da tabela. A função de mascaramento é avaliada no tempo de execução da consulta, substituindo cada referência à coluna de destino pelos resultados da função de mascaramento.
Para obter mais informações, consulte Segurança, conformidade e privacidade - Gerenciar identidade e acesso usando privilégios mínimos.
Configurar log de auditoria
O log de auditoria é importante porque fornece uma conta detalhada das atividades do sistema (ações do usuário, alterações nas configurações e assim por diante) que podem afetar a integridade do sistema. Enquanto os logs padrão do sistema são projetados para ajudar os desenvolvedores a solucionar problemas, os logs de auditoria fornecem um registro histórico da atividade para fins de conformidade e outros fins de aplicação de políticas de negócios. A manutenção de registros de auditoria robustos pode ajudar a identificar e garantir a preparação diante de ameaças, violações, fraudes e outros problemas do sistema.
O Databricks fornece acesso a logs de auditoria de atividades realizadas por usuários do Databricks, permitindo que sua organização monitore padrões detalhados de uso do Databricks. Há dois tipos de logs, logs de auditoria no nível do espaço de trabalho com eventos no nível do espaço de trabalho e logs de auditoria no nível da conta com eventos no nível da conta.
Você também pode habilitar logs de auditoria detalhados são logs de auditoria adicionais gravados sempre que uma consulta ou comando é executado em seu espaço de trabalho.
Auditar eventos da plataforma de dados
O log de auditoria é importante porque fornece uma conta detalhada das atividades do sistema. A Plataforma de Inteligência de Dados possui logs de auditoria para o acesso aos metadados (portanto, acesso aos dados) e para o compartilhamento de dados:
- O Unity Catalog captura um log de auditoria das ações executadas no metastore. Isso permite que os administradores acessem detalhes refinados sobre quem acessou um determinado conjunto de dados e quais ações eles executaram.
- Para compartilhamento seguro com o Compartilhamento Delta, o Azure Databricks fornece logs de auditoria para monitorar eventos do Compartilhamento Delta, incluindo:
- Quando alguém cria, modifica, atualiza ou exclui um compartilhamento ou um destinatário.
- Quando um destinatário acessa um link de ativação e baixa a credencial.
- Quando um destinatário acessa compartilhamentos ou dados em tabelas compartilhadas.
- Quando a credencial de um destinatário é girada ou expira.
3. Estabelecer padrões de qualidade de dados
A plataforma de inteligência de dados Databricks fornece gerenciamento robusto da qualidade de dados com controles de qualidade, testes, monitoramento e aplicação integrados para garantir que dados precisos e úteis estejam disponíveis para cargas de trabalho de BI, análises e aprendizado de máquina downstream.
Os detalhes da implementação podem ser vistos em Confiabilidade - Gerenciar a qualidade dos dados.
Definir padrões claros de qualidade de dados
Definir padrões de qualidade de dados claros e acionáveis é crucial, porque ajuda a garantir que os dados usados para análise, relatórios e tomada de decisões sejam confiáveis e confiáveis. Documentar essas normas ajuda a garantir que elas sejam respeitadas. As normas de qualidade dos dados devem basear-se nas necessidades específicas da empresa e abordar dimensões da qualidade dos dados, como a exatidão, exaustividade, coerência, atualidade e fiabilidade:
- Precisão: Garanta que os dados reflitam com precisão os valores do mundo real.
- Exaustividade: Todos os dados necessários devem ser capturados e não devem faltar dados críticos.
- Consistência: Os dados em todos os sistemas devem ser consistentes e não contradizer outros dados.
- Atualidade: Os dados devem ser atualizados e disponibilizados em tempo útil.
- Fiabilidade: Os dados devem ser obtidos e tratados de forma a garantir a sua fiabilidade.
Use ferramentas de qualidade de dados para criar perfis, limpar, validar e monitorar dados
Aproveite as ferramentas de qualidade de dados para criar perfis, limpar, validar e monitorar dados. Essas ferramentas ajudam a automatizar os processos de deteção e correção de problemas de qualidade de dados, o que é vital para dimensionar iniciativas de qualidade de dados em grandes conjuntos de dados típicos em data lakes
Para equipes que usam DLT, você pode usar expectativas para definir restrições de qualidade de dados no conteúdo de um conjunto de dados. As expectativas permitem garantir que os dados que chegam às tabelas cumpram os requisitos de qualidade dos dados e forneçam informações sobre a qualidade dos dados para cada atualização do pipeline.
Implementar e aplicar formatos e definições de dados padronizados
Formatos e definições de dados padronizados ajudam a obter uma representação consistente de dados em todos os sistemas para facilitar a integração e análise de dados, reduzir custos e melhorar a tomada de decisões, aprimorando a comunicação e a colaboração entre equipes e departamentos. Também ajuda a fornecer uma estrutura para criar e manter a qualidade dos dados.
Desenvolva e imponha um dicionário de dados padrão que inclua definições, formatos e valores aceitáveis para todos os elementos de dados usados na organização.
Use convenções de nomenclatura, formatos de data e unidades de medida consistentes em todos os bancos de dados e aplicativos para evitar discrepâncias e confusão.