6 dimensões da qualidade de dados: ações que você pode começar a executar desde hoje

Se você está com determinação para melhorar a qualidade de dados da sua empresa, este post será um grande impulsionador ao demonstrar desde formas simples até as mais complexas sobre como evitar dados ruins e agregar dados de qualidade para o sua empresa.

Não ter dados limpos e organizados é um grande problema, sem dados preparados suficientemente, estamos sujeitos a falhas ou a nem mesmo ter sucesso em ações do dia a dia, como campanhas de marketing, aplicação de pesquisas de satisfação, análise de dados e etc.

Pensando em colaborar com a noção de qualidade de dados, a Data Management Association (DAMA), organização focada em elevar os conhecimentos em qualidade de dados, desenvolveu e apresentou as 6 dimensões da qualidade de dados.

As dimensões de qualidade de dados tem como objetivo incentivar a análise e revisão da forma com que os dados são dispostos na empresa e são peças chave para direcionar as ações de governança de dados em uma organização.

As seis dimensões são:

1) Completude: 

A completude trata-se do quão completos estão os dados para atender o propósito para o qual foram coletados.

2) Consistência: 

A consistência significa que o dado tem os mesmos valores em diferentes locais de armazenamento, ou seja, não há incoerência sobre a informação dentro dos diferentes sistemas da empresa.

3) Conformidade: 

A conformidade significa que o dado segue o formato estipulado como esperado pelos administradores de dados.

4) Precisão: 

Consiste no quão bem o dado representa a realidade do tema, por exemplo, conseguir entregar o número correto de vendas naquele momento em determinada unidade.

5) Disponibilidade: 

A disponibilidade é conseguir acessar um dados com velocidade quando necessário.

6) Integridade: 

A integridade significa o quão os dados são válidos, se não houveram erros ou fraudes na informação em questão.

Tudo claro até aqui? Não se esqueça dessas dimensões, pois elas são importantes pontos de partida para qualquer tipo de ação realizada na sua empresa em relação a dados!

Agora que você conheceu ou relembrou o que cada uma das dimensões da qualidade de dados significa, está na hora de listarmos ações que você pode realizar na sua empresa para atendê-las.

Na prática: Ações que você pode realizar para melhorar a qualidade de dados na sua empresa

Nosso objetivo é te ajudar a sair da teoria e começar a melhorar a qualidade dos dados na sua empresa, aqui listamos diferentes ações para você conhecer e buscar implementar na sua realidade!

Para facilitar o entendimento, seguiremos o seguinte padrão para essa listagem: 

(Ação que pode ser realizada) + (Quais dimensão são atendidas)

1) Definir padrões de dados (Conformidade)

Definir a padronização de dados na sua empresa facilita a distribuição, utilização e integração de dados das mais diferentes origens.

Por que isso importa? Em uma empresa múltiplas equipes são demandantes de um mesmo tipo de dado, se cada uma coleta ou o demanda em um padrão diferente, o tempo de processamento e transformação aumenta dificultando a utilização daquele dado.

A simples definição do padrão das informações acelera os processos demandantes de dados.

Por exemplo:

2) Regras de qualidade de dados (Integridade) (Conformidade)

As regras de qualidade de dados tem como objetivo estabelecer filtros durante a entrada ou análise dos dados.

Pense em uma esteira fabril, os produtos (dados) chegam, são analisados e, como os produtos defeituosos, são retirados para descarte ou melhoria.

Para desenvolver suas regras é necessário conhecer a fundo o tipo de dado que está sendo coletado, vamos supor que durante o cadastro um cliente adiciona um número de RG com algo diferente de 8 números, dígito de confirmação (se for emitido em SSP-SP), o dado com certeza é inválido.

Conheça mais sobre as regras de qualidade de dados e como aplicá-las com REGEX (expressões regulares).  

Além de consultas de formato, você pode realizar consultas externas para qualificar um dado, é o que acontece com dados de e-mail e telefone, por exemplo.

A validação de dados de e-mail, passa por regras que avaliam o formato e por consultas externas para avaliar o servidor e caixa de entrada, coletando assim, o retorno positivo ou negativo sobre a qualidade daquelas informações.

Ficou curioso sobre como funcionam as validações de e-mail? Confira mais no post: Formas de validar os dados de e-mail.

O mesmo acontece quando você utiliza a Receita Federal para validar os dados de CPF e CNPJ.

3) Análise de Outliers (Integridade) (Conformidade)

Outliers são valores que fogem da normalidade e podem enviesar negativamente uma análise.

O lado bom é que identificar outliers é algo simples, basta definir um intervalo aceitável e detectar valores que fogem dessa faixa.

Sua análise pode acontecer via planilha, gráficos e análises estatísticas.

Por exemplo, fica fácil identificar a discrepância de erros com informações de idade:

A análise em um gráfico a análise facilita a percepção em grandes e pequenos conjuntos de dados:

4) Integração de sistemas (Precisão) (Disponibilidade)

A integração de dados significa conectar sistemas a fim de migrar e trocar informações entre origens diferentes.

Uma vez integrados os sistemas seguirão gatilhos de ação, que são momentos que irão gerar algum tipo de movimentação de dados, como por exemplo, a seguinte regra: “toda vez que um lead se tornar oportunidade no CRM de marketing, criar um alerta para a equipe comercial no CRM comercial”.

Integrar os sistemas tornará os dados mais precisos, pois chegam mais rapidamente ao destino atualizando a informação para as outras áreas da empresa que também são demandantes desse dados.

Duas ferramentas que facilitam as integrações e que você precisa conhecer são o Zapier e o Segment

5) Higienização de dados (Integridade) (Precisão) (Consistência)

Uma vez que os dados inválidos forem detectados pelas técnicas apresentadas, existem outros pontos que precisam ser trabalhados através das técnicas de higienização de dados.

Além de remover os dados inválidos, você precisa identificar dados duplicados e incoerentes.

Dados duplicados são responsáveis por gerar grandes vieses em análises uma vez que o mesmo dado pode ser encontrado várias vezes em um mesmo conjunto.

Se você possui uma lista de e-mails que contém dados duplicados e será utilizada para o envio de uma campanha de marketing, por exemplo, você acabará enviando a mesma mensagem várias vezes para um mesmo cliente, o que pode gerar uma fadiga e atrito com o mesmo.

Uma forma simples e gratuita de resolver esse problema é acessando a ferramenta de retirar duplicatas do invertertexto.com, lá você adiciona a lista de dados em questão e remove dados duplicados.

Para identificar dados incoerentes são necessárias análises de concordância de dados, que é a comparação de um mesmo dado vindo de fontes diferentes.

Se você possui um mesmo dado em duas fontes ou mais, porém com resultados diferentes, isso significa que sua base de dados possui problemas de inconsistências. 

Essa análise pode ser facilmente realizada no Excel, basta adicionar as duas colunas do mesmo dado vindo de origens diferentes e utilizar a fórmula: =(coluna a=coluna b).

Toda vez que as colunas forem iguais o resultado será “VERDADEIRO” e toda vez que as colunas forem diferentes o resultado será “FALSO”.

Com isso, você terá uma lista como essa:

Após as conclusões, busque entender qual a fonte mais confiável e qual dado deve ser corrigido para que sua empresa melhore as métricas de conformidade de dados.

6) Melhorar a completude de dados (Completude)

Sua base de dados está repleta de buracos devido a grande quantidade de dados faltantes? Esse problema pode ser gerado por falhas de integração ou ineficiência durante a jornada de coleta de dados.

Para realizar as ações e análises necessárias precisamos das informações que sustentam o resultado, por isso, ações para melhorar a completude da base de dados são extremamente importantes.

Veja 3 formatos para alavancar a completude de dados na sua empresa:

a) Convidar clientes para atualizar as informações

Com as leis gerais de proteção de dados as informações precisam ser continuamente validadas e atualizadas para sua utilização. (Princípio V da sessão de tratamento de dados da LGPD).

Utilize momentos e canais adequados para coletar e atualizar as informações de clientes via e-mail, SMS, site, WhatsApp e oportunidades que surgirem presencialmente. 

Para tornar isso um processo, você precisa criar gatilhos que alertam seu sistema e colaboradores a respeito de quais informações precisam ser atualizados, para que quando a oportunidade surgir, as ações de atualização possam ser aplicadas.

Veja no post: 6 formas de manter seus dados sempre atualizados os caminhos que você pode tomar para envolver o cliente na atualização cadastral.

b) Técnicas estatísticas para lidar com dados faltantes

Análises estatísticas também enfrentam o problema de dados faltantes, e para problemas estatísticos existem soluções estatísticas.

De acordo com o tipo de análise os dados faltantes podem ser:

  • Substituídos pela média, mediana ou moda;
  • Seguir o método Hot e Cold Deck com um valor estimado;
  • Imputação do vizinho k-nearest substituindo por valor com posição próxima;
  • Imputação múltipla MICE que cria um algoritmo para definir qual valor será imputado.

Para conhecer mais sobre essas técnicas acesse: Dados faltantes, o que são e como lidar.

c) Enriquecimento de dados

Enriquecer dados significa adicionar mais informações a um conjunto de dados que você já possui.

As empresas que possuem dados e tem a autorização de distribuí-los geralmente contam com integrações que permitem você puxar informações que deseja sobre determinada pessoa ou empresa.

O Reclame Aqui, por exemplo, possui uma API que permite que você busque reclamações de clientes sobre sua empresa e as adicione como informação no perfil de cada cliente a fim de organizar um histórico de relacionamento e solucionar problemas.

Outro exemplo é a Receita Federal que permite adicionar informações adicionais sobre uma empresa a partir do seu CNPJ, como nome dos sócios, endereço, situação e etc.

Conclusão

Nesse post conseguimos provar que existem formas desde a mais simples até a mais complexa de se melhorar o seu posicionamento em relação às diferentes dimensões de qualidade de dados.

Envolva seu time nesse processo mostrando que todos são responsáveis pela qualidade de dados e que é necessário começar mesmo que pequeno.

Um dos motivadores desse conteúdo foi a transformação realizada pelo Airbnb ao aplicar conceitos de governança de dados na sua operação com o objetivo de explorar melhor os dados que possui.

Tornar a qualidade de dados um processo te permite seguir em frente para focar nas estratégias de crescimento e performance do seu negócio, inicie seu projeto de data quality desde já!

Acesse nosso O guia imperdível de Data Quality: tudo o que você precisa para combater dados ruins e combata dados ruins na sua empresa!

Posts relacionados que você deveria conhecer:

Dica 1 – Cultura de dados: o caminho para a confiabilidade na sua empresa

Dica 2 – 4 passos para se tornar uma empresa Data-Driven

Dica 3 – Checklist gratuito: Etapas do tratamento de dados para alcançar a qualidade de dados

Qualquer dúvida basta me enviar um e-mail pelo fabio@bringdata.co, falar comigo por WhatsApp (31) 9 7553-3434 ou deixar seu comentário por aqui!

Até a próxima!

Share

Fábio é CEO da BringData, empresa especializada em tratamento de dados de clientes, foi Diretor Comercial da Track.co, é administrador e especialista em gestão da experiência de clientes.

4 Comments

  1. calculadora Reply

    Existem muitas fórmulas para problemas de porcentagem. Você pode pensar na porcentagem mais básica calculada como X/Y = P x 100. As fórmulas a seguir são todas as variações matemáticas desta fórmula. Você pode calcular a porcentagem online usando esta calculadora de porcentagem

  2. Leonardo Marques Maciel Sivla Reply

    Fábio, que artigo incrível! Numa só tacada você abrangeu diversos conceitos, apresentou soluções, correlações de problemas com as dimensões de qualidade de dados mapeadas pela DAMA… muito bom! Ainda me deixou com vários outros artigos para serem lidos (os que são referenciados neste).
    Um abraço e muito obrigado pelo conteúdo!

    1. Fábio Mansur Post author Reply

      Oi Léo!

      Fiquei feliz que gostou do conteúdo, vindo de você significa muito! Obrigado pela leitura, espero que goste dos próximos posts!

      Conte comigo!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.