5 maneiras de acabar com dados faltantes: Acabe com os buracos nas suas bases de dados

Sua base de dados está cheia de buracos e os dados não são suficientes para sua análise?
Confira algumas abordagens para preencher os campos faltantes na sua lista de informações para que o problema seja resolvido!

Dados faltantes são aquelas informações que estão ausentes em uma base de dados e poderiam ser importantes para o resultado de uma análise. Trabalhar com um dataset com valores ausentes é um problema de grande relevância no momento da análise de dados, problema que pode ser fruto de diversos motivos, como falhas no sistema de coleta, clientes que se negam a responder, problemas de integração de diferentes fontes e etc.

O ponto é: devemos ser cuidadosos para evitar os vieses que os dados faltantes causam nos resultados que buscamos.

Antes de tudo precisamos entender quais são os tipos de dados faltantes que podemos encontrar durante nossa gestão:

Tipo de dados Faltantes:

 

01 – MCAR – Missing Completely at Random (Perdidos completamente de forma Aleatória):

Os dados estão perdidos de forma completamente aleatória, não há justificativa para sua ocorrência, geralmente ocorre em erros de integração de sistemas ou falha de imputação de dados.

02 – MAR – Missing at Random (Perdidos Aleatoriamente):

O valor faltante pode depender dos valores conhecidos, mas não do próprio valor perdido.

O dado pode ser recuperado através da análise de outras variáveis, normalmente análises preditivas são capazes de imputar os valores corretamente, completando assim, os valores faltantes.

03 – MNAR – Missing not at random:

Dado MNAR é  o dado que é faltante por algum motivo específico.

Um exemplo claro, acontece quando pessoas não estão dispostas a declarar qual seu número de automóveis pois se sentem em risco de revelar tal informação por terem medo de algum tipo de taxação ou crime.

Como lidar com dados faltantes?

Como sabem, o objetivo da BringData é simplificar tudo que parece muito complicado em relação a dados, o fato é que ao longo dos anos foram desenvolvidos diferentes métodos sobre como lidar com dados faltantes, aqui estão alguns deles que selecionamos e podem te ajudar para casos que é permitido realizar imputações:

a) Tente coletar o dado faltante: 

Não custa nada tentar o caminho mais simples antes de apelar para outros métodos de imputação.

Trabalhe programas de atualização de dados com seus clientes, deixe claro o quão importante é ter as informações corretas para que vocês possam atendê-los melhor! 

Veja o exemplo de como o Nubank pede atualizações de dados via push notification no seu aplicativo:

Push notification Nubank para atualização de dados

Bem legal, não é? É algo simples e que te ajuda a manter os dados atualizados!

Além de push notifications você pode enviar pedidos de atualização de dados via e-mail e SMS, tenha certeza que os links e e-mails enviados utilizem o domínio da sua empresa para que os clientes saibam que não é algum tipo de golpe e sintam confiança em atualizar as informações!

O lado bom de ir até o cliente para a busca das informações é que você demonstra transparência sobre qual a finalidade de se coletar os dados e ela deixa claro que confia na sua empresa para manusear as informações!

Use esse método sempre que você mantiver relações de longo prazo com os clientes, torne um hábito comum atualizar os dados, para isso ser possível, você precisa deixar claro que ter dados válidos e atualizados ajuda a sua empresa a melhorar o atendimento, seus serviços e trazer melhores benefícios!

b) Substituir por Média, Mediana ou Moda: 

Consiste em substituir o valor faltante pelos valores médios, modais ou medianos de uma amostra, onde média é a soma dos valores dividido pelo número de amostras, mediana é o valor que divide o conjunto de dados em dois conjuntos (50%/50%) ou seja, o valor central e moda o valor mais frequente.

Embora seja uma solução simples, é brusca em relação a imputação de informações e pode gerar desempenhos ruins nos modelos resultante gerando análises tendenciosas e covariâncias, utilize-a em modelos mais simples e de baixo risco.

Aplicar imputação utilizando a média e moda demonstra-se extremamente sensível a distribuição de dados, podendo criar grandes alterações valores analisados, em um estudo de ticket médio, por exemplo, utilizar a mediana tende a causar menos impacto na amostra.

Alguns dados que podem utilizar a imputação: Idade, Ticket Médio, Tempo de permanência e etc.

c) Hot Deck: 

No Hot Deck o valor faltante é substituído por um valor estimado de acordo com o comportamento da base de dados.

São utilizados valores presentes na base de dados para preencher os valores faltantes, além disso pode-se utilizar o Cold Deck que segue a mesma lógica do Hot Deck, mas utiliza fontes de dados externas para clusterização e preenchimento.

O comportamento dos dados revelará os grupos de informações e aplicará o mesmo a mesma distribuição do grupo para definir qual será o dado utilizado para preenchimento.

Por exemplo, se notarmos que 80% da população de classe A tem como nível de escolaridade o ensino superior completo, utilizaremos a variável “ensino superior completo” para preencher as informações de escolaridade faltante em pessoas do grupo A.

d) Imputação do vizinho K-nearest:

O K-nearest utiliza um algoritmo que cria um modelo para identificar grupos de sujeitos semelhantes e adicionar ao valor vazio o dado vizinho de acordo com a distância ocorrida.

A principal desvantagem desse método é que leva tempo para se determinar a distância do dado ideal, principalmente quando trata-se de grandes bases de dados.

e) Imputação múltipla MiCE:

A imputação MICE é um modelo complexo que utiliza uma cadeia de equações para definir qual o melhor valor a ser imputado naquele dataset.

O modelo é flexível podendo trabalhar com as mais diversas variáveis, é capaz de inspecionar o padrão dos valores faltantes, imputar uma séries de valores teste, diagnosticar a qualidade dos valores imputados e incorporar o melhor método de imputação de acordo com a avaliação.

O Artigo “Multiple imputation by chained equations: what is it and how does it work?” apresenta seis etapas do modelo MICE:

1) Uma imputação simples, como imputar a média, é executada para cada valor ausente no conjunto de dados. Essas imputações médias podem ser consideradas como “marcadores de posição”.

2) o “marcador de posição” significa que as imputações de uma variável (“var”) estão novamente ausentes.

3) Os valores observados da variável “var” na Etapa 2 são regredidos nas outras variáveis no modelo de imputação, que podem ou não consistir em todas as variáveis do conjunto de dados. Em outras palavras, “var” é a variável dependente em um modelo de regressão e todas as outras variáveis são variáveis independentes no modelo de regressão. Esses modelos de regressão operam sob as mesmas suposições que se faria ao executar modelos de regressão linear, logístico ou veneno fora do contexto de imputação de dados ausentes.

4) Os valores ausentes para “var” são substituídos por previsões (imputações) do modelo de regressão. Quando “var” for subseqüentemente usado como variável independente nos modelos de regressão para outras variáveis, serão utilizados os valores observados e esses imputados.

5) As etapas 2 a 4 são repetidas para cada variável que possui dados ausentes. O ciclo através de cada uma das variáveis constitui uma iteração ou “ciclo”. No final de um ciclo, todos os valores ausentes foram substituídos por previsões de regressões que refletem os relacionamentos observados nos dados.

6) as etapas 2 a 4 são repetidas por vários ciclos, com as imputações sendo atualizadas a cada ciclo com valores plausíveis.

Conclusão

O fato é que cada tipo de dado reage melhor com um diferente tipo de imputação, desta forma, o melhor cenário trata-se de que sejam aplicadas diferentes tipos de imputação de acordo com o dado em questão, uma vez que os dados faltantes forem preenchidos, sua análise poderá ser mais confiável e gerar decisões mais assertivas para sua empresa.

Eu sei, esse assunto é um pouco mais técnico do que geralmente trazemos aqui no Blog, mas é um ponto importante que precisa ser tratado! Nos próximos posts trataremos sobre como lidar quando os dados não podem ser imputados e como isso afeta a análise! 

Agora é se preparar para colocar em prática, entenda bem quais dados funcionam melhor com cada uma das técnicas e as aplique para preencher as informações faltantes na sua base de dados.

Continuem contando conosco, fale comigo pela sessão de comentários ou por e-mail no fabio@bringdata.co!

Até mais!

Posts relacionados que você deveria conhecer:

Dica 1 – 6 formas de manter seus dados sempre atualizados

Dica 2 – 7 dicas para coletar dados melhor e conhecer seu cliente

Dica 3 – Modelo de projeto de qualidade que te ajudará a melhorar seus dados e acertar nas suas decisões

A BringData

 

 

A BringData é uma plataforma de validação de dados de e-mail e telefone em tempo real.

Você pode automatizar a validação de dados desde a entrada nos formulários, determinar ciclos de validação recorrentes e acompanhar métricas de qualidade de dados em nossos relatórios!

Crie sua conta gratuita e receba 100 créditos para validações!

Share

Fábio é CEO da BringData, empresa especializada em tratamento de dados de clientes, foi Diretor Comercial da Track.co, é administrador e especialista em gestão da experiência de clientes.

2 Comments

    1. Fábio Mansur Post author Reply

      Oi Jose! tudo bem? Obrigado por nos avisar, houve um erro na digitação e já corrigimos, muito obrigado!

      É um prazer te conhecer! 🙂

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.