Requisitos para administrar dados
A análise em escala de nuvem recomenda que você considere os seguintes requisitos para a governança de dados:
- Definição da entidade de dados para criar um vocabulário de negócios comum em um glossário de negócios. Entidades de dados neste contexto significam conceitos como cliente, fornecedor, materiais, funcionário e outros.
- Identificação e descoberta da entidade de dados.
- Classificação de dados para controlar a segurança de acesso aos dados, a privacidade e a retenção dos dados.
- Pessoas, como proprietários de dados com responsabilidade de governança e administradores de dados responsáveis pela proteção e pela qualidade dos dados.
- Processos de governança de dados.
- Gerenciamento do ciclo de vida de dados para controlar por quanto tempo os dados devem ser mantidos
- Políticas e regras para definir como dados específicos devem ser controlados em todo o ciclo de vida.
- Imposição de política entre armazenamentos de dados no cenário de dados distribuídos.
- Gerenciamento de dados mestres para tornar os dados consistentes em sistemas operacionais e analíticos, como cliente, produto e fornecedor.
- Linhagem de metadados para entender a transformação e a relação das entidades de dados.
- Tecnologia para tornar possível controlar dados estruturados, multiestruturados e não estruturados. A governança pode abranger o datacenter, várias nuvens e a borda.
Um desafio é que os dados estão sendo coletados e armazenados em vários locais em toda a empresa. Os dados podem incluir dados coletados e armazenados em diferentes regiões geográficas e diferentes jurisdições. Como resultado, uma legislação diferente pode se aplicar ao controle dos mesmos dados em diferentes jurisdições. Descubra os dados distribuídos entre várias nuvens e locais geográficos para:
- Entender quais atributos, entidades e relações de dados existem no cenário de dados distribuídos.
- Classificar os dados para saber como controlá-lo
- Defina políticas para especificar como os dados devem ser controlados para cada tipo de classificação e gerenciamento do ciclo de vida.
- Impor a qualidade de dados, a segurança de acesso aos dados, a privacidade de dados e as políticas de gerenciamento do ciclo de vida em todo o cenário de dados distribuídos.
Classificação de dados
A classificação de dados é uma forma de categorizar os ativos de dados atribuindo classes ou marcas lógicas exclusivas a eles. A classificação é baseada no contexto de negócios dos dados.
Precisa haver uma maneira de classificar os dados para entender seu nível de confidencialidade e por quanto tempo mantê-los. A classificação exige:
- Um esquema de classificação de confidencialidade de dados
- Um esquema de classificação de retenção de dados
Esquema de classificação de confidencialidade de dados
Classificação | Descrição |
---|---|
Pública | Qualquer pessoa pode acessar os dados, e eles podem ser enviados a qualquer um. Por exemplo, abertura de dados governamentais. |
Somente para uso interno | Somente os funcionários podem acessar os dados, e eles não podem ser enviados para fora da empresa. |
Confidencial | Os dados só poderão ser compartilhados se forem necessários para uma tarefa específica. Os dados não podem ser enviados para fora da empresa sem um contrato de não divulgação. |
Confidenciais (dados pessoais) | Os dados contêm informações particulares, que precisam ser mascaradas e compartilhados apenas com aqueles diretamente interessados e por um período limitado. Os dados não podem ser enviados a pessoas não autorizadas ou fora da empresa. |
Restritos | Os dados só podem ser compartilhados com pessoas nomeados que são responsáveis pela proteção deles. Por exemplo, documentos legais ou segredos comerciais. |
Esquema de classificação de retenção do ciclo de vida de dados
Retenção | Descrição |
---|---|
Nenhum | Os dados podem ser excluídos a qualquer momento. |
Temporário | Mantenha os dados por um curto período. Por exemplo, mantenha os dados do Twitter por uma semana. |
Período fixo | Mantenha os dados por um número definido de anos, após os quais eles podem ser excluídos. Por exemplo, mantenha os registros fiscais por sete anos para cumprir as leis governamentais. |
Permanente | Nunca exclua os dados. Por exemplo, correspondência jurídica. |
É necessário automatizar a confidencialidade de dados e o processo de classificação de retenção do ciclo de vida de dados usando as classes definidas em cada esquema para rotular os dados de maneira consistente no cenário de dados distribuídos. A automação permite que eles sejam controlados de forma consistente e correta. Em seguida, defina regras e políticas para cada classe no esquema de classificação para especificar como controlar os dados de acordo com sua classificação.
Funções e responsabilidades de governança de dados
Outro requisito é a necessidade de responsabilização. De outro modo, fica confuso saber quem é responsável por controlar os dados. Se não houver responsabilização, como responder às perguntas a seguir?
- Who define as métricas de sucesso e monitora se o programa de governança de dados está funcionando corretamente?
- Quem são os proprietários de dados?
- Quem define e mantém um glossário de negócios?
- Quem cria e mantém as políticas de segurança de acesso?
- Quem está protegendo a privacidade dos dados pessoais para conformidade?
- Quem está cuidando da qualidade dos dados do produto em todos os folhetos e sites de parceiros?
- Quem garante que os dados do cliente são consistentes em todos os sistemas?
- Quem está controlando o uso de dados de assinatura externa em relação à licença?
- Quem está controlando os usuários privilegiados como administradores de banco de dados e cientistas de dados?
- É um executivo de alta hierarquia? É um chefe de departamento?
- É o chefe de governança, risco e conformidade?
- E o departamento jurídico?
- É de responsabilidade da TI?
Funções e responsabilidades são necessárias para evitar confusão e definir a base na qual uma cultura de dados pode se materializar.
Processos de governança de dados
Os processos são necessários, juntamente com as funções e responsabilidades para:
- Governar a definição e a manutenção de um vocabulário de negócios comum
- Descobrir e identificar quais dados você tem, o que eles significam e onde estão armazenados
- Classificar os dados para saber como controlá-los
- Controlar a definição e a manutenção das políticas de segurança de acesso a dados
- Controlar a definição e a manutenção das políticas de privacidade dos dados
- Detectar problemas na qualidade dos dados e remediá-los
- Aplicar políticas para garantir que a ação seja tomada para conformidade
- Controlar a manutenção de dados mestres
Políticas e regras de governança de dados
Defina políticas e regras para controlar:
- As regras de integridade de dados
- As regras e políticas de ingestão de dados
- As regras e políticas de segurança de acesso aos dados
- As regras e políticas de privacidade de dados
- As regras e políticas de qualidade de dados
- As regras e políticas de manutenção de dados
- As regras e políticas de retenção de dados
Associe essas políticas e regras a cada classe nos esquemas de classificação de governança de dados.
Gerenciamento de dados mestre
Outro requisito na governança de dados é o gerenciamento de dados mestre. Os dados mestres são os dados mais amplamente compartilhados em qualquer organização e incluem as entidades de dados principais. As entidades de dados principais incluem cliente, fornecedor, materiais, funcionários e ativos. Elas também incluem gráficos financeiros dos dados de contas encontrados em diferentes aplicativos financeiros. Como os dados mestres são tão amplamente compartilhados, seu aplicativo é independente. Ele é necessário para aplicativos de processamento de transações operacionais e sistemas analíticos. Manter esses dados sincronizados pode resolver muitos erros de dados e de processo. Portanto, o ideal é mantê-los centralmente por meio de um processo comum e sincronizar todos os sistemas que precisam deles. Além disso, a governança é necessária sobre quem tem permissão para a mantê-los e onde essa manutenção precisa acontecer.
O mesmo se aplica a dados de referência, como conjuntos de códigos e dados de mercados financeiros. Nesse caso, a padronização e a sincronização de conjuntos de códigos são conhecidas como gerenciamento de dados de referência, que também é um requisito.
Linhagem de metadados
Por fim, há um requisito para a linhagem de metadados. Você pode usar uma trilha de auditoria para saber de onde os dados foram originados e como eles são transformados na rota para um relatório ou um armazenamento de dados. Você pode usar metadados para rastrear quem ou o que está mantendo dados, incluindo quando e onde isso ocorre.
Resumo do que é necessário para a governança de dados de ponta a ponta
Você precisa de uma solução de ponta a ponta que possa controlar os dados em todo o ciclo de vida nos armazenamentos de dados na borda, em várias nuvens e no datacenter.
Sua solução de governança de dados precisa ter vários componentes:
- Uma visão e uma estratégia de governança de dados
- Os próprios dados, como dados do cliente, dados do fornecedor, dados de pedido e outros.
- O ciclo de vida dos dados, da criação à destruição, durante os quais eles precisam ser controlados.
- Funções e responsabilidades (pessoas) na governança de dados.
- Processos e atividades de governança de dados e como eles se aplicam ao ciclo de vida dos dados.
- Políticas e regras para controlar dados em diferentes pontos do ciclo de vida.
- Tecnologias de governança de dados para ajudar a tornar a governança de dados possível.