13 grandes erros que afetam a qualidade de dados

Não queremos te assustar, mas existem várias formas de se prejudicar a qualidade de dados em uma empresa. Nesse post listamos 13 pontos onde você precisa aplicar extrema atenção no seu negócio para evitar impactos que poderão durar por anos! Confira e se previna grandes falhas!

Este post é baseado nos conhecimentos apresentados pelo autor Arkady Maydanchik no Livro “Data Quality Assessment”.

Se tem um fator que todas as áreas de uma empresa tem em comum são os dados ruins.

Os dados entram, se movimentam e se atualizam o tempo todo nas empresas, o ponto é que enquanto os sistemas de dados são alterados, pior fica a qualidade de dados.

Nós buscamos sempre sistemas mais robustos e modernos de organização, visualização e de exploração de dados, o problema é enquanto aumentamos a tecnologia, esquecemos de priorizar a qualidade de dados.

A máxima “Garbage in, Garbage out” é verdadeira, podemos ter os sistemas mais robustos, mas se alimentá-los com dados de baixa qualidade, o resultado será o fracasso.

“A única maneira de enfrentar o desafio da qualidade dos dados é por meio de um programa sistemático e contínuo, que avalie e melhore os níveis de qualidade dos dados existentes, bem como monitorar continuamente a qualidade dos dados e evitar sua deterioração futura tanto quanto possível.”

(Maydanchik, Arkady (2012-06-30T22:58:59). Data Quality Assessment . Technics Publications, LLC)

Devemos compreender que a qualidade dos dados não é uma montanha que você pode escalar, levantar a bandeira e viver feliz para sempre, orgulhoso de suas realizações.

A qualidade de dados é como um jardim, que deve ser cuidado continuamente, com esforço e paciência, podendo se tornar extremamente bonito e fértil.

Mas, assim como um jardim, se deixada sozinha por um curto período de tempo, as ervas daninhas vão invadir e podem voltar a prejudicar todo o esforço anteriormente realizado.

Existem fatores clássicos que afetam a qualidade dos dados da sua empresa que podem ter acontecido ou estar acontecendo na sua realidade agora, por isso, confira as ações que prejudicam os dados da sua empresa.

13 momentos críticos para qualidade dos seus dados

Bloco A:

Processos que trazem dados de fora:

Importação de Dados

Todo sistema é constituído por três camadas: a base de dados, as regras de negócios e a interface do usuário.

O que o usuário vê não é sempre o mesmo do que é armazenado na base de dados, principalmente em sistemas legado, onde as configurações seguem parâmetros antigos e passam por algoritmos de transformação pouco compatíveis com novas ferramentas.

A disparidade entre o que se vê e o que é armazenado causa erros no mapeamento dos dados da origem e destino, causando implementações incorretas que podem distribuir dados de baixa qualidade por toda empresa.

Uma vez implementado de forma errônea o sistema distribuirá dados ruins por toda empresa até que seja detectado, o que pode levar dias ou anos.

Fusões e mesclagens de sistema

Esse cenário acontece usualmente com o surgimento da demanda de junção de dados, muitas vezes motivada por casos de fusões e aquisições de empresas.

Esse caso específico traz uma lista de problemas: geralmente não são planejadas, acabam tendo tempo limitado e urgência, acontecem num momento complicado para as equipes de tecnologia e dados (duas culturas e times se misturando) e muita perda de expertise.

Por mais que possam ser dados muito parecidos, as empresas possuem prioridades, origens, formatos e utilidades diferentes para suas informações, o que assim como na imputação de dados, prejudica o mapeamento das informações entre origem e destino.

Será encontrado um novo padrão de qualidade ou um dos anteriores será imposto, o que fará com que os novos dados precisem ser adaptados ou até “empurrados” para um sistema antigo.

Os principais problemas nesses casos são que geralmente os dados são sobrescritos, duplicados, perde-se histórico e surgem inúmeras incoerências.

Neste caso geralmente são implementadas estratégias de “winner-loser” para decidir qual dado é correto e deve ser utilizado, o problema é que muitas vezes essas estratégias são limitadas ou contém o viés do autor do algoritmo, o que prejudica a confiança da informação.

Além de conter vieses, as estratégias “winner-loser” podem se tornar complexas o suficiente para ninguém saber ao certo quais regras foram implementadas, ou seja, um grande problema.

Aproveitando que falamos sobre viés em algoritmos, recomendo muito fortemente o vídeo a seguir:

Adição manual de Dados

A maior fonte de erros de dados é a imputação manual, é natural, somos humanos e humanos erram, sempre vai acontecer.

Quanto mais podermos automatizar com lógicas de validação bem implementadas no momento de coleta, melhor, assim evitaremos erros humanos como erros ao redigir, imputação de valores incoerentes ou inválidos, como o clássico naotem@naotem.com.

Um ponto chave para colaborar com a imputação manual é deixar clara a importância da qualidade desses dados, para tal, vemos o papel de uma Cultura de Dados bem implementada e distribuída pela organização.

Importação de planilha

O prejuízo que a importação de planilhas podem causar segue a mesma proporção da qualidade dos dados ali presentes, se a planilha for ruim, ruins serão os resultados.

O problema nesse caso, é o mesmo da adição manual de dados, só que aumentado pelo volume de dados, é como se fosse um cavalo de tróia repleto de dados ruins invadindo sua base de dados espalhando desinformação.

Antes de adicionar um dado no sistema, o mesmo deve ser aprovado pelos requisitos de qualidade de dados.

Confira nosso Guia completo de Qualidade de Dados!

Interfaces em tempo real

A disponibilização de dados em tempo real é uma das dádivas da gestão, ela nos ajuda a acelerar as análises, aumenta a eficiência dos atendimentos, identificação de oportunidades e distribuição de informações.

Mas qual o lado ruim dessa vez?

O ponto é que assim como somos velozes para o bem, acabamos sendo velozes para distribuir dados ruins para toda a empresa sem nenhum tipo de validação ou tratamento prévio.

Chegamos a um ponto em que a informação boa está entremeada nas informações ruins, e vemos a velocidade prejudicar a qualidade ao ponto que esse tipo de dado é espalhado por todos sistemas da organização.

Não somos críticos da velocidade, pelo contrário, a apoiamos, mas se feita buscando o equilíbrio e qualidade de dados.

Bloco B:

Processos que alteram de dados internos

Processamento de dados 

Nós pecamos em acreditar que tudo em tecnologia é extremamente estável e funciona perfeitamente como deveria, a verdade é que assim como nós humanos, os sistemas erram e bugs acontecem.

Acreditamos que pequenas alterações nas respostas do processamento de dados tem baixo impacto, mas na verdade um pequeno bug aplicado a milhões de registros pode criar milhões de erros mais rapidamente que o tempo necessário para escrever este parágrafo.

O processamento de dados é sensível aos inputs (dados) que recebe, caso aconteçam mudanças nas etapas anteriores os sistemas de processamento podem perder sua sincronização necessária para entregar os outputs (resultados) esperados.

Com alterações não reportadas os resultados gerados serão de baixa qualidade pois os dados chegaram fora do padrão que deveriam, impactando assim, a assertividade de decisões futuras.

Higienização de dados

As estratégias de tratamento de dados são extremamente importantes para gerir e realizar a manutenção da qualidade de dados, elas sem dúvidas devem ser aplicadas.

Os problemas surgem quando as regras são mal escolhidas, fazendo com que enquanto alguns dados são melhorados, outros são piorados com a mesma velocidade.

As regras de limpeza de dados também são processamentos, e caso mal aplicadas são capazes de gerar milhões de erros rapidamente.

Para ter sucesso, o projeto de tratamento de dados precisa ser consciente, evitando extravagâncias ou escolhas desesperadas.

Garanta que você estudou muito seus dados e entendeu o formato que ele deve conter para ser distribuído internamente e como melhorá-lo sem afetar sua qualidade.

Saiba mais sobre higienização de dados e como o resultado pode ser positivo para sua operação!

Eliminação de dados

Os dados são desatualizados rapidamente, todos os dias precisamos apagar ou substituir informações, mas este processo pode ser muito arriscado.

Sempre que apagamos dados corremos os risco de cometer acidentes, o sistema de identificação de dados a serem apagados pode falhar e incluir dados importantes na exclusão.

Um exemplo de erro comum e altamente prejudicial é apagar dados inválidos, mas que poderiam ser tratados para se tornarem úteis.

Um exemplo simples de exclusões negativas são quando dados de e-mail com erros no domínio são apagados, erros estes como “@gmeil.com” ou “htomail.com” que podem ser rapidamente corrigidos para suas formas originais voltando a serem úteis para organização.

Bloco C:

Processos internos que deterioram dados

Mudanças não detectadas

Os dados podem se tornar obsoletos simplesmente por terem sua descrição alterada, se um dado é transformado, mas sua descrição não, já acontece uma inconsistência.

O dado é apenas preciso quando representa a realidade da sua descrição e a verdade é que os dados são alterados o tempo todo, as pessoas mudam de endereço, estado civil e etc.

No post Jornada de Coleta de Dados mostramos formas de atualizar e coletar dados com eficiência, vale conferir!

A atualização de dados é um dos próximos temas que trataremos por aqui, temos muito o que explorar e esperamos sua visita! 🙂

Atualizações de sistema

Fique atento às atualizações dos sistemas que utiliza para gerenciar seus dados, podem existir mudanças que afetam suas automações ou até mesmo contém erros na própria atualização.

Com a atualização tudo que funcionava pode parar de funcionar de um dia para o outro, quebrando toda a lógica de processamento de dados antes estabelecida.

Tenha relações próximas aos seus fornecedores e estude as atualizações de sistemas antes de aprová-los.

Além de prejudicar a qualidade dos seus dados, a atualização e atuação de outras empresas podem causar danos enormes em termos de segurança de dados.

Caso tenha curiosidade, veja os 15 maiores vazamentos de informação do século 21.

Novos usos de dados

Este tópico é conceitual, e as vezes precisamos ser.

Já vimos em outros posts do blog que um dado de qualidade é aquele que cumpre com o propósito para qual foi coletado, certo?

Um dado pode deixar de ser de qualidade simplesmente por determinarmos um novo uso para ele.

Para evitar esse acontecimento, você deve atualizar os detentores de dados sobre a nova necessidade para aquelas informações, aproveite e alinhe este fato com os responsáveis sobre as suas políticas de governança de dados.

Perda de experiência

Toda empresa tem uma pessoa que está ali por muitos anos e sabe tudo sobre os dados e processos internos, geralmente é este é o detentor dos conhecimentos.

Caso esta pessoa não trabalhe para distribuir esse conhecimento e acabe deixando sua empresa, um grande problema está instalado.

Sem esse especialista normalmente acontecem decisões equivocadas sobre qualidade de dados e dados ruins acabam sendo gerados e distribuídos.

Incentive, novamente, a cultura dos dados, a atualização e documentação dos processos internos de tratamento de dados.

Automações não monitoradas

A tecnologia facilita nosso trabalho, nós queremos automatizar o máximo de funções operacionais e repetitivas possíveis.

O problema acontece quando uma vez implementada a automação deixa de ser monitorada e revisada, fazendo com que suas regras tornem-se obsoletas.

Nós humanos podemos sempre olhar para um dado e utilizar as interpretações que temos com o conjunto de aprendizados coletados para julgar se uma informação é válida ou não.

Já os sistemas costumam utilizar regras fixas, que se não forem atualizadas, seguem um mesmo padrão, muitas vezes ultrapassado que pode gerar uma infinidade de erros!

Conclusão

Se tem algo que aprendemos nesse post é que os dados são sensíveis, as alterações estruturais ou de sistemas os afetam diretamente podendo causar problemas enormes para a qualidade dos dados.

A conversão de dados é a parte mais difícil de qualquer implementação de sistema. A taxa de erro em um novo banco de dados recém-preenchido é frequentemente maior do que no sistema antigo do qual os dados são convertidos.

Como a principal fonte dos problemas de dados, a conversão de dados deve ser tratada com o máximo respeito que merece e devemos estar atentos a essas mudanças.

Assim como vimos, os dados precisam ser cuidados como um jardim, monitorados, tratados e adubados! (gestão, limpeza e enriquecimento)

Novamente, cuidado com processos mal estruturados e decisões desesperadas, comece aos poucos e com muito conhecimento dos seus dados, desta forma, tenho certeza que você fará um trabalho sensacional de melhoria de dados!

Se restou alguma dúvida, ou tem algum feedback, fale comigo nos comentários ou e-mail: fabio@bringdata.co! 🙂

Até a próxima! 🙂

Posts relacionados que você deveria conhecer:

Dica 1 – Método rápido para descobrir se você tem problemas na qualidade de dados

Dica 2 – Regras que você precisa aplicar para salvar a qualidade dos seus dados

Dica 3 – 6 verdades que você precisa ouvir sobre gestão de dados na sua empresa

A BringData

A BringData é uma plataforma de tratamento de dados em tempo real que te ajuda a validar e organizar os dados da sua empresa.

Crie sua conta gratuita e receba 100 créditos gratuitos!

Share

Fábio é CEO da BringData, empresa especializada em tratamento de dados de clientes, foi Diretor Comercial da Track.co, é administrador e especialista em gestão da experiência de clientes.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.