Estou fazendo um projeto que envolve a substituição de valores ausentes em um conjunto de dados (pela primeira vez). Isso envolve o uso de dois métodos replacement by mean
e replacement by median
para preencher os valores ausentes. Não há muita diferença entre os resultados dos desvios mínimo, mediano, máximo, médio e padrão dos dados usando os dois métodos. Fiquei imaginando qual método é melhor e como posso decidir qual deles é melhor usando o método resultados produzidos?
mean
median
data-imputation
Jake MB
fonte
fonte
Respostas:
Depende sempre dos seus dados e da sua tarefa.
Se houver um conjunto de dados com ótimos valores discrepantes, prefiro mediana. Ex: 99% da renda familiar está abaixo de 100 e 1% está acima de 500.
Por outro lado, se trabalharmos com o desgaste de roupas que os clientes dão à lavadora a seco (assumindo que os operadores das lavanderias preencham esse campo intuitivamente), preencherei as perdas com o valor médio do desgaste.
É melhor começar com o entendimento dos dados e, em seguida, este artigo será um ponto de partida útil.
fonte
A imputação é um meio para um objetivo, não o objetivo em si. Em algumas circunstâncias, substituir os dados ausentes pode ser a coisa errada a fazer. Certifique-se de prestar atenção primeiro ao motivo pelo qual seus dados estão ausentes, conforme explicado na página Wikipedia de Dados ausentes , e se a imputação é realmente apropriada para responder à pergunta que seu projeto procura responder.
Se algumas suposições forem atendidas (por exemplo, se a probabilidade de uma variável ter um valor ausente não depender do valor em si, tecnicamente chamado de "ausente aleatoriamente") e seu estudo envolver várias variáveis, é melhor usar várias imputações em vez de substituições por meios ou medianas. Na imputação múltipla, os valores conhecidos de todas as variáveis são usados para fornecer vários conjuntos de estimativas dos dados ausentes. Essa abordagem pode fornecer melhores estimativas, tanto das relações subjacentes entre as variáveis quanto da confiabilidade de suas estimativas. Veja as perguntas neste site com a
multiple-imputation
etiqueta para obter mais informações.fonte