Modelo de projeto de qualidade que te ajudará a melhorar seus dados e acertar nas suas decisões

Você já tem ciência de que sua empresa tem problemas de qualidade de dados mas não sabe como estruturar um projeto de melhoria? Nesse post apresentamos um template e como funciona um processo de melhoria de dados!

Assim como em um processo produtivo, quando esperamos alcançar um objetivo ou um output que segue determinados padrões, nós precisamos de processos.

Queremos que a+b seja igual a c, para tal devemos aplicar uma série de alterações nos insumos para alcançar o que se é esperado, como um processo de fabricação.

Em qualidade de dados não é diferente, para criar padrões de qualidade precisamos listar e manter um processo capaz de coletar as informações e transformá-las no que esperamos para ser utilizado.

Pensando nisso, trouxemos um projeto de qualidade de dados, use-o como escopo para começar a organizar as informações na sua empresa. 

Veja o rápido vídeo onde explico todo processo:
Framework: Projeto de Qualidade de Dados

Assim como no vídeo, aqui, deixo formalizado os conceitos:

Conceitos importantes

Base de conhecimento de dados:

É a listagem de regras que definem os padrões esperados dos dados, a partir delas, os dados adicionados à sua base são filtrados e destinados ao armazenamento ou ao tratamento.

Por ex:

“Dados de CPF devem conter 11 dígitos numéricos”;

“Endereços de e-mail não podem contar com mais de um arroba”;

“Não existem dados negativos para idade”

Caso uma informação não respeite as regras delegadas, a mesma deverá ser direcionada aos sistemas de tratamento.

Adicione na base de conhecimento de dados tudo o que você sabe e espera sobre aquele tipo de variável.

Gestão do conhecimento/Política de Validação: 

O projeto de qualidade de dados precisa ser atualizado e revisado constantemente, sendo assim, a gestão do conhecimento e atualização da política de validação faz parte da construção da base de conhecimento.

Um projeto de qualidade de dados vai sendo refinado e melhorado com o tempo, ou seja, com base na experiência novas regras são adicionadas ou melhoradas.

Gestão do tratamento de dados:

Todo processo precisa de métricas, para gestão do tratamento de dados é necessário um sistema de métricas e acompanhamento das atividade detectadas e realizadas.

Neste sistema podem ser acompanhadas informações sobre a quantidade de dados adicionados por origem, proporção de erros, número de tratamentos realizados, custos e etc.

Como funcionará na prática?

Listagem e integração das fontes de dados

Simples organização das origens de dados, elas serão responsáveis por imputar as informações no processo de qualidade de dados.

Descobrir e explorar dados

Uma vez adicionadas, as informações passarão por uma série de táticas de avaliação de dados baseadas nas regras pré-definidas, desta forma avaliaremos se esses dados seguem os padrões desejados, estão corretos ou precisam de algum tipo de correção.

É o momento de filtragem, aqui são separados os dados que seguem os padrões dos que precisam ser tratados.

Corrigir e padronizar

Assim que identificados, os erros precisam ser tratados, para tal, são direcionados para as tecnologias capazes de corrigir a informação buscando o formato desejado.

Tipos de correção ou padronização:

  • Transformação de variáveis (Sp, Sao Paulo, São paulo = São Paulo)
  • Correção de e-mails (fabio@gmeil.com => fabio@gmail.com)
  • Correção de dados de idade: Caso a idade disponibilizada não seja confiável, calcular automaticamente através do dado de data de nascimento.

Entres muitas outras possibilidades.

Desduplicar

Identificar e desduplicar dados que podem afetar suas análises ou comunicação com clientes.

Aqui está o processo por inteiro:

Conclusão

O framework apresentado tem como objetivo deixar claro um processo simplificado de tratamento de dados.

São necessárias formas de adição, tratamento e exportação de dados para criar o ciclo esperado para um projeto de qualidade de dados!

Restou alguma dúvida?

Caso tenha interesse, fale comigo nos comentários ou pelo e-mail fabio@bringdata.co!

Obrigado!

Share

Fábio é CEO da BringData, empresa especializada em tratamento de dados de clientes, foi Diretor Comercial da Track.co, é administrador e especialista em gestão da experiência de clientes.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.