Substituindo os valores discrepantes pela média

31

Esta pergunta foi feita pelo meu amigo que não é conhecedor da Internet. Não tenho antecedentes estatísticos e tenho pesquisado na Internet esta questão.

A questão é: é possível substituir os valores discrepantes pelo valor médio? se for possível, existe alguma referência / periódicos para apoiar esta declaração?

Alun
fonte
25
Certamente é possível fazer isso, mas é difícil imaginar uma situação em que faça sentido.
Peter Flom - Restabelece Monica
2
Já há várias respostas mais longas, mas é improvável que o resumo de uma frase de @Peter Flom seja correspondido como um resumo.
Nick Cox
4
Nenhuma resposta ainda apontou o elefante na sala: embora a substituição de "outliers" pela média preserve a média de um conjunto de dados, ela altera quase qualquer outra estatística. Até altera as estimativas do erro padrão da média. Consequentemente - em apoio ao comentário de @Peter Flom - o conjunto de dados resultante não parece útil para qualquer forma confiável de inferência. (É concebível que poderia ser não utilizado em seu próprio direito, mas em etapas intermediárias em um processo iterativo para identificar os outliers, explicando assim porque tal procedimento pode existir em primeiro lugar.)
whuber
1
@whuber Claramente um ponto chave. Gostaria de transformá-lo em outra resposta, para que não seja desperdiçada por ninguém que esteja lendo este tópico muito rapidamente. As pessoas tentadas por esse dispositivo, e evidentemente existem algumas, precisam perceber que não é (a) uma boa ideia (b) uma má idéia.
Nick Cox
1
@ user2357112 A implicação é que a média a ser usada é a média dos outros valores. O valor externo, considerado não confiável, não deve ser incluído no cálculo.
Nick Cox

Respostas:

41

Claramente é possível, mas não está claro que isso possa ser uma boa ideia.

Vamos detalhar várias maneiras pelas quais essa é uma solução limitada ou deficiente:

  • Na verdade, você está dizendo que o valor externo é completamente indigno de confiança, na medida em que seu único palpite possível é que o valor seja a média. Se é isso que você pensa, é provável que seja mais honesto apenas omitir a observação em questão, pois evidentemente você não tem informações suficientes para adivinhar melhor.

  • Com nada mais dito, você precisa de um critério ou critérios para identificar discrepantes em primeiro lugar (como implícito por @Frank Harrell). Caso contrário, este é um procedimento arbitrário e subjetivo, mesmo que seja defendido como uma questão de julgamento. Com alguns critérios, é possível que a remoção de discrepâncias dessa maneira crie ainda mais discrepâncias como efeito colateral. Um exemplo pode ser que os valores extremos estão a mais do que muitos desvios padrão da média. A remoção de um erro externo altera o desvio padrão e agora novos pontos de dados podem se qualificar, e assim por diante.

  • Presumivelmente, a média aqui significa a média de todos os outros valores, um argumento explicitado por @David Marx. A ideia é ambígua sem essa estipulação.

  • Usar a média pode parecer um procedimento seguro ou conservador, mas alterar um valor para a média mudará quase todas as outras estatísticas, incluindo medidas de nível, escala e forma e indicadores de sua incerteza, um ponto enfatizado por @whuber.

  • A média pode até não ser um valor viável: exemplos simples são quando os valores são números inteiros, mas geralmente a média não é um número inteiro.

  • Mesmo com a idéia de que usar uma medida sumária é uma coisa cautelosa, usar a média em vez da mediana ou qualquer outra medida precisa de alguma justificativa.

  • Sempre que houver outras variáveis, modificar o valor de uma variável sem referência a outras pode tornar um ponto de dados anômalo em outros sentidos.

O que fazer com os outliers é uma pergunta aberta e muito difícil. Vagamente, diferentes soluções e estratégias têm um apelo variado. Aqui está uma lista parcial de possibilidades. O pedido é arbitrário e não tem a intenção de transmitir qualquer pedido em termos de aplicabilidade, importância ou qualquer outro critério. Essas abordagens também não são mutuamente exclusivas.

  • Uma definição (na minha opinião, boa) é que "[o] utliers são valores de amostra que causam surpresa em relação à maioria da amostra" (WN Venables e BD Ripley. 2002. Estatísticas modernas aplicadas com S. New York: Springer, p.119). No entanto, a surpresa está na mente de quem vê e depende de algum modelo tácito ou explícito dos dados. Pode haver outro modelo sob o qual o outlier não surpreende, de modo que os dados são realmente (digamos) lognormais ou gama, em vez do normal. Em suma, esteja preparado para (re) considerar seu modelo.

  • Entre no laboratório ou no campo e faça a medição novamente. Muitas vezes isso não é praticável, mas parece padrão em várias ciências.

  • Teste se os outliers são genuínos. A maioria dos testes parece bem artificial para mim, mas você pode encontrar um que acredite ser adequado à sua situação. A fé irracional de que um teste é apropriado é sempre necessária para aplicar um teste que é então apresentado como essencialmente racional.

  • Jogue-os fora por uma questão de julgamento.

  • Jogue-os fora usando alguma regra mais ou menos automatizada (geralmente não "objetiva").

  • Ignore-os, parcial ou completamente. Isso pode ser formal (por exemplo, aparar) ou apenas uma questão de deixá-los no conjunto de dados, mas omiti-los das análises como muito quentes para lidar.

  • Puxe-os usando algum tipo de ajuste, por exemplo, Winsorizing.

  • Subestime-os usando outro método robusto de estimativa.

  • Subestime-os trabalhando em uma escala transformada.

  • Subestimando-os usando uma função de link sem identidade.

  • Para acomodá-los, ajuste uma distribuição apropriada de cauda gorda, longa ou pesada, sem ou com preditores.

  • Acomodar usando um indicador ou variável fictícia como um preditor extra em um modelo.

  • Evite o problema usando algum procedimento não paramétrico (por exemplo, baseado em classificação).

  • Controle a incerteza implícita usando o procedimento de bootstrapping, jackknifing ou permutação.

  • Edite para substituir um outlier por um valor mais provável, com base na lógica determinística. "Uma avó de 18 anos é improvável, mas a pessoa em questão nasceu em 1932, então presumivelmente é realmente 81".

  • Edite para substituir um erro discrepante impossível ou implausível, usando algum método de imputação que atualmente é uma mágica não muito branca.

  • Analise com e sem e veja quanta diferença o (s) discrepante (s) faz (s), estatisticamente, cientificamente ou praticamente.

  • Algo bayesiano. Minha ignorância prévia sobre o que proíbe dar detalhes.

EDITAR Esta segunda edição se beneficia de outras respostas e comentários. Eu tentei sinalizar minhas fontes de inspiração.

Nick Cox
fonte
1
(+1) boa resposta. No lado bayesiano, pode-se fazer muitas coisas, mas, na verdade, você está tentando criar um modelo de como chegou a ter esses valores (o processo que levou ao discrepante). Por exemplo, pode ser algo simples como "cada valor de dados tem uma pequena probabilidade desconhecida de pertencer a uma distribuição muito mais selvagem do que a maior parte dos dados" e, em seguida, colocar uma distribuição anterior nessa probabilidade e formalizar alguma escolha para essa mais selvagem distribuição e anteriores para seus parâmetros. O efeito é diminuir o impacto dos pontos que não se encaixam no modelo.
Glen_b -Reinstate Monica
16

Existem vários problemas implícitos na sua pergunta.

  1. O que é um "outlier"?
  2. Um "outlier" deve ser substituído?
  3. O que há de especial na média em oposição a alguma outra estimativa?
  4. Como você compensaria aumentar a variação aparente na substituição por um único valor que faz com que a variação seja muito pequena?
  5. Por que não usar estimadores robustos que são resistentes a valores discrepantes?
  6. Essa é uma variável independente ou dependente?

Nenhum dos 1-5 tem uma resposta óbvia. Se você realmente acha que esses "valores extremos" estão errados e não deseja usar um método estatístico robusto, pode fazê-los desaparecer e usar várias imputações como uma solução possível. Se a variável for uma variável dependente, uma escolha robusta é a regressão ordinal.

Frank Harrell
fonte
1
+1, bons pontos. Estou intrigado com a sugestão de OLR; existe uma razão para você preferir usar uma função robusta de perda, como o bisquare de Tukey?
gung - Restabelece Monica
2
YY
9

A proposta possui inúmeras falhas. Aqui é talvez o maior.

Suponha que você esteja coletando dados e veja estes valores:

2,3,1

6/3=2

Então vem um outlier:

2,3,1,1000

Então você substitui-o pela média:

2,3,1,2

O próximo número é bom:

2,3,1,2,7

Agora, a média é 3. Espere um minuto, a média agora é 3, mas substituímos 1000 por uma média de 2, apenas porque ocorreu como o quarto valor. E se mudarmos a ordem das amostras?

2,3,1,7,1000

(2+3+1+7)/4=13/4

O problema é que o dado falso que estamos substituindo no lugar de 1000 depende dos outros dados. Esse é um problema epistemológico se as amostras devem representar medidas independentes.

nnnnn

Basicamente, cortar os resultados que não se encaixam é uma coisa (e pode ser justificado se for feito de maneira consistente, de acordo com um algoritmo, e não com as mudanças de humor do pesquisador).

Os resultados definitivos da falsificação são questionáveis ​​em bases filosóficas, epistemológicas e éticas.

Pode haver algumas circunstâncias atenuantes, que têm a ver com a forma como os resultados são usados. Como, por exemplo, digamos que essa substituição de valores discrepantes pela média atual faça parte do algoritmo de alguns computadores embarcados, o que lhe permite implementar um sistema de controle em circuito fechado. (Ele coleta amostras de algumas saídas do sistema e depois ajusta as entradas para obter o controle.) Tudo é em tempo real e, portanto, algo deve ser fornecido por um determinado período de tempo no lugar de dados ausentes. Se esse truque ajuda a superar falhas e garante uma operação suave, tudo está bem.

Aqui está outro exemplo, da telefonia digital: PLC (ocultação de perda de pacotes). Porcaria acontece, e os pacotes se perdem, mas a comunicação é em tempo real. O PLC sintetiza trechos falsos de voz com base nas informações recentes de pitch dos pacotes recebidos corretamente. Portanto, se um alto-falante estava dizendo a vogal "aaa" e um pacote foi perdido, o PLC pode preencher o pacote ausente extrapolando o "aaa" pela duração do quadro (digamos 5 ou 10 milissegundos ou o que for). O "aaa" é tal que se assemelha à voz do falante. Isso é análogo ao uso de uma "média" para substituir valores considerados ruins. É uma coisa boa; é melhor do que o som entrando e saindo e ajuda a inteligibilidade.

Se a falsificação de dados faz parte de um programa de mentir para as pessoas para encobrir falhas no trabalho, isso é outra coisa.

Portanto, não podemos pensar nisso independentemente da aplicação: como as estatísticas estão sendo usadas? As substituições levarão a conclusões inválidas? Existem implicações éticas?

Anon
fonte
A história da telefonia é muito interessante, mas parece uma questão de interpolação defensável para substituir os valores ausentes. A conexão com a substituição externa é tênue, pois são necessárias apenas operações puramente locais e as alterações locais são secundárias à "análise" de todo o conjunto de dados.
Nick Cox
2
Muitas idéias interessantes aqui (+1). Observe, porém, que o procedimento de substituição não é necessariamente seqüencial. Pode-se identificar todos os "outliers" de uma só vez e substituí-los pela média do restante. Este é um procedimento consistente, diferente do Winsorizing.
whuber
6

Este artigo de Cousineau e Chartier discute a substituição de valores discrepantes pela média

http://www.redalyc.org/pdf/2990/299023509004.pdf

Eles escrevem:

Tabachnick e Fidell (2007) sugeriram substituir os dados ausentes pela média dos dados restantes na célula correspondente. No entanto, esse procedimento tenderá a reduzir a disseminação da população, tornar a distribuição observada mais leptokurtica e possivelmente aumentar a probabilidade de um erro do tipo I. Uma técnica mais elaborada, múltiplas imputações, envolve a substituição de valores discrepantes (ou dados ausentes) por possíveis valores (Elliott & Stettler, 2007; Serfling & Dang, 2009).

Há também um pacote "outliers" do R que tem uma função para substituir os outliers pela média. Também vi vários acertos na minha pesquisa no Google, o que implica que o SPSS também tem essa função, mas não estou familiarizado com esse programa. Talvez se você seguir os tópicos, possa descobrir a base técnica da prática.

Referências

  • Cousineau, D. & Chartier, S. (2010). Detecção e tratamento de outliers: uma revisão. International Journal of Psychological Research, 3 (1), 58-67.
Thomas
fonte
Pesquisei na sua referência todas as ocorrências da palavra "média" e não consegui encontrar nenhum lugar onde se discuta a substituição de valores discrepantes pela média. Se eu perdi alguma coisa, você poderia indicar com mais precisão onde essa discussão ocorre?
whuber
1
Alterei o link porque não consegui fazê-lo funcionar. Na página 9 do documento, o autor diz: "Os discrepantes que são claramente o resultado de uma atividade espúria devem ser removidos. No entanto, em projetos multivariados, isso pode resultar na remoção de muitos participantes, a ponto de a análise não poder mais ser realizada. Tabachnick e Fidell (2007) sugeriram substituir os dados ausentes pela média dos dados restantes na célula correspondente ".
28413 Thomas
2
Obrigado: Eu vejo agora. No entanto, descrever isso como uma "discussão" - que sugere que pode haver algum equilíbrio entre prós e contras - pode ser um pouco enganador, porque essa passagem menciona o procedimento de substituição de média (a) apenas para aplicativos multivariados e (b) apenas para apontar seus defeitos, terminando com uma sugestão para considerar várias imputações. (Curiosamente, a referência do artigo para esse procedimento nem aparece em sua bibliografia.)
whuber
5
Sim, é estranho que a referência citada não esteja no babador. Parece ser o livro "Experimental Designs Using ANOVA". Eu estava tentando responder à solicitação original e fornecer referências para a prática de substituir a média por discrepantes. Esse documento foi tudo o que pude encontrar em uma pesquisa rápida e esperava que ele fornecesse leads para que o OP pudesse encontrar uma resposta mais completa.
29413 Thomas
4

A principal coisa a ter em mente quando se lida com discrepantes é se eles estão fornecendo informações úteis. Se você espera que eles ocorram regularmente, retirá-los dos dados garantirá que seu modelo nunca os preverá. Obviamente, depende do que você deseja que o modelo faça, mas vale lembrar que você não deve necessariamente abandoná-lo. Se eles contiverem informações importantes, considere um modelo que possa ser responsável por eles. Uma maneira simples de fazer isso é obter registros das variáveis, o que pode explicar os relacionamentos das leis de energia. Como alternativa, você pode usar um modelo que os responda com uma distribuição de erros com cauda de gordura.

Se você deseja cortá-las, as formas usuais são descartá - las ou Winsorise -as para remover os valores extremos. Não tenho um livro em mãos, mas os links do Wiki referem-se a alguns, se você quiser ler mais. A maioria dos textos sobre estatísticas aplicadas deve ter uma seção sobre valores discrepantes.

jmz
fonte
3

Estou ciente de duas abordagens semelhantes relacionadas nas estatísticas.

  • Meios aparados: ao calcular a média, você solta as menores e maiores observações de seus dados (por exemplo, as partes superior e inferior 1cada; você deve fazer isso simetricamente!)
  • Winsorização: semelhante à média aparada, você modifica apenas observações extremas. No entanto, em vez de soltá-las, você as substitui pela maior / menor observação não extrema. Isso geralmente funciona um pouco melhor do que aparar.

Para exemplos mais detalhados, consulte Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Observe que isso funciona bem para algumas estatísticas, como ao calcular a média. A média aparada / com vitórias médias é geralmente uma estimativa melhor da média verdadeira do que a média artihmetic. Em outros casos, isso pode arruinar suas estatísticas. Por exemplo, ao calcular a variação, o corte sempre subestima sua verdadeira variação. A Winsorização, supondo que algumas das observações extremas sejam defeituosas, funcionará um pouco melhor (provavelmente ainda subestimará, mas não tanto).

Não vejo como a substituição dos valores extremos pela média se encaixaria aqui.

No entanto, há outra prática relacionada: imputação de valor ausente . Supondo que o seu outlier seja falho, dados inúteis, então você o remove. Quando você executa a imputação, um valor substituto típico seria a média ou o modo:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29

Anony-Mousse
fonte
1
Aparar assimetricamente é uma tática conhecida e defensável.
Nick Cox
2

A abordagem tradicional para lidar com discrepantes é simplesmente removê-los, para que seu modelo seja treinado apenas com dados "bons".

Lembre-se de que o valor médio é afetado pela presença desses valores extremos. Se você substituir os outliers pela média calculada após a remoção dos outliers do seu conjunto de dados , não fará diferença, pois a linha de regressão (da regressão linear simples) passará pela média dos dados de treinamento de qualquer maneira (isso reduzirá a variação do seu estimativas, o que provavelmente é o oposto do que você deseja, pois sabe que existem discrepâncias).

O efeito que sua abordagem terá no modelo depende da influência (alavancagem) do discrepante. Eu recomendaria contra a abordagem que você sugere, em vez de apenas remover completamente o ponto.

David Marx
fonte
4
A remoção dos dados causará um viés, a menos que o procedimento para remoção seja objetivo e esse mesmo procedimento seja aplicado a todos os dados futuros para os quais as previsões são obtidas.
precisa
0

sim, os outliers podem ser substituídos em várias formas, por exemplo, vamos usar um conjunto de dados do tamanho das alturas humanas, digamos que temos alguns outliers como 500 cm e 400 cm; basta substituir os pontos de dados que aparecem em o conjunto de dados devido a algum erro causado durante a gravação dos dados. portanto, as opções que você pode tentar são 1. substituí-lo pela cor Mediana da totalidade dos dados (não a média, pois é propensa a discrepâncias). 2. substitua pelo ponto de dados mais ocorrente na coluna. 3. Se os valores categoriais, você pode tentar a codificação de resposta (onde você registra a probabilidade da palavra ou os valores que ocorrem pelo número total de palavras)

Sujit Jena
fonte