Esta pergunta foi feita pelo meu amigo que não é conhecedor da Internet. Não tenho antecedentes estatísticos e tenho pesquisado na Internet esta questão.
A questão é: é possível substituir os valores discrepantes pelo valor médio? se for possível, existe alguma referência / periódicos para apoiar esta declaração?
mean
outliers
robust
winsorizing
Alun
fonte
fonte
Respostas:
Claramente é possível, mas não está claro que isso possa ser uma boa ideia.
Vamos detalhar várias maneiras pelas quais essa é uma solução limitada ou deficiente:
Na verdade, você está dizendo que o valor externo é completamente indigno de confiança, na medida em que seu único palpite possível é que o valor seja a média. Se é isso que você pensa, é provável que seja mais honesto apenas omitir a observação em questão, pois evidentemente você não tem informações suficientes para adivinhar melhor.
Com nada mais dito, você precisa de um critério ou critérios para identificar discrepantes em primeiro lugar (como implícito por @Frank Harrell). Caso contrário, este é um procedimento arbitrário e subjetivo, mesmo que seja defendido como uma questão de julgamento. Com alguns critérios, é possível que a remoção de discrepâncias dessa maneira crie ainda mais discrepâncias como efeito colateral. Um exemplo pode ser que os valores extremos estão a mais do que muitos desvios padrão da média. A remoção de um erro externo altera o desvio padrão e agora novos pontos de dados podem se qualificar, e assim por diante.
Presumivelmente, a média aqui significa a média de todos os outros valores, um argumento explicitado por @David Marx. A ideia é ambígua sem essa estipulação.
Usar a média pode parecer um procedimento seguro ou conservador, mas alterar um valor para a média mudará quase todas as outras estatísticas, incluindo medidas de nível, escala e forma e indicadores de sua incerteza, um ponto enfatizado por @whuber.
A média pode até não ser um valor viável: exemplos simples são quando os valores são números inteiros, mas geralmente a média não é um número inteiro.
Mesmo com a idéia de que usar uma medida sumária é uma coisa cautelosa, usar a média em vez da mediana ou qualquer outra medida precisa de alguma justificativa.
Sempre que houver outras variáveis, modificar o valor de uma variável sem referência a outras pode tornar um ponto de dados anômalo em outros sentidos.
O que fazer com os outliers é uma pergunta aberta e muito difícil. Vagamente, diferentes soluções e estratégias têm um apelo variado. Aqui está uma lista parcial de possibilidades. O pedido é arbitrário e não tem a intenção de transmitir qualquer pedido em termos de aplicabilidade, importância ou qualquer outro critério. Essas abordagens também não são mutuamente exclusivas.
Uma definição (na minha opinião, boa) é que "[o] utliers são valores de amostra que causam surpresa em relação à maioria da amostra" (WN Venables e BD Ripley. 2002. Estatísticas modernas aplicadas com S. New York: Springer, p.119). No entanto, a surpresa está na mente de quem vê e depende de algum modelo tácito ou explícito dos dados. Pode haver outro modelo sob o qual o outlier não surpreende, de modo que os dados são realmente (digamos) lognormais ou gama, em vez do normal. Em suma, esteja preparado para (re) considerar seu modelo.
Entre no laboratório ou no campo e faça a medição novamente. Muitas vezes isso não é praticável, mas parece padrão em várias ciências.
Teste se os outliers são genuínos. A maioria dos testes parece bem artificial para mim, mas você pode encontrar um que acredite ser adequado à sua situação. A fé irracional de que um teste é apropriado é sempre necessária para aplicar um teste que é então apresentado como essencialmente racional.
Jogue-os fora por uma questão de julgamento.
Jogue-os fora usando alguma regra mais ou menos automatizada (geralmente não "objetiva").
Ignore-os, parcial ou completamente. Isso pode ser formal (por exemplo, aparar) ou apenas uma questão de deixá-los no conjunto de dados, mas omiti-los das análises como muito quentes para lidar.
Puxe-os usando algum tipo de ajuste, por exemplo, Winsorizing.
Subestime-os usando outro método robusto de estimativa.
Subestime-os trabalhando em uma escala transformada.
Subestimando-os usando uma função de link sem identidade.
Para acomodá-los, ajuste uma distribuição apropriada de cauda gorda, longa ou pesada, sem ou com preditores.
Acomodar usando um indicador ou variável fictícia como um preditor extra em um modelo.
Evite o problema usando algum procedimento não paramétrico (por exemplo, baseado em classificação).
Controle a incerteza implícita usando o procedimento de bootstrapping, jackknifing ou permutação.
Edite para substituir um outlier por um valor mais provável, com base na lógica determinística. "Uma avó de 18 anos é improvável, mas a pessoa em questão nasceu em 1932, então presumivelmente é realmente 81".
Edite para substituir um erro discrepante impossível ou implausível, usando algum método de imputação que atualmente é uma mágica não muito branca.
Analise com e sem e veja quanta diferença o (s) discrepante (s) faz (s), estatisticamente, cientificamente ou praticamente.
Algo bayesiano. Minha ignorância prévia sobre o que proíbe dar detalhes.
EDITAR Esta segunda edição se beneficia de outras respostas e comentários. Eu tentei sinalizar minhas fontes de inspiração.
fonte
Existem vários problemas implícitos na sua pergunta.
Nenhum dos 1-5 tem uma resposta óbvia. Se você realmente acha que esses "valores extremos" estão errados e não deseja usar um método estatístico robusto, pode fazê-los desaparecer e usar várias imputações como uma solução possível. Se a variável for uma variável dependente, uma escolha robusta é a regressão ordinal.
fonte
A proposta possui inúmeras falhas. Aqui é talvez o maior.
Suponha que você esteja coletando dados e veja estes valores:
Então vem um outlier:
Então você substitui-o pela média:
O próximo número é bom:
Agora, a média é 3. Espere um minuto, a média agora é 3, mas substituímos 1000 por uma média de 2, apenas porque ocorreu como o quarto valor. E se mudarmos a ordem das amostras?
O problema é que o dado falso que estamos substituindo no lugar de 1000 depende dos outros dados. Esse é um problema epistemológico se as amostras devem representar medidas independentes.
Basicamente, cortar os resultados que não se encaixam é uma coisa (e pode ser justificado se for feito de maneira consistente, de acordo com um algoritmo, e não com as mudanças de humor do pesquisador).
Os resultados definitivos da falsificação são questionáveis em bases filosóficas, epistemológicas e éticas.
Pode haver algumas circunstâncias atenuantes, que têm a ver com a forma como os resultados são usados. Como, por exemplo, digamos que essa substituição de valores discrepantes pela média atual faça parte do algoritmo de alguns computadores embarcados, o que lhe permite implementar um sistema de controle em circuito fechado. (Ele coleta amostras de algumas saídas do sistema e depois ajusta as entradas para obter o controle.) Tudo é em tempo real e, portanto, algo deve ser fornecido por um determinado período de tempo no lugar de dados ausentes. Se esse truque ajuda a superar falhas e garante uma operação suave, tudo está bem.
Aqui está outro exemplo, da telefonia digital: PLC (ocultação de perda de pacotes). Porcaria acontece, e os pacotes se perdem, mas a comunicação é em tempo real. O PLC sintetiza trechos falsos de voz com base nas informações recentes de pitch dos pacotes recebidos corretamente. Portanto, se um alto-falante estava dizendo a vogal "aaa" e um pacote foi perdido, o PLC pode preencher o pacote ausente extrapolando o "aaa" pela duração do quadro (digamos 5 ou 10 milissegundos ou o que for). O "aaa" é tal que se assemelha à voz do falante. Isso é análogo ao uso de uma "média" para substituir valores considerados ruins. É uma coisa boa; é melhor do que o som entrando e saindo e ajuda a inteligibilidade.
Se a falsificação de dados faz parte de um programa de mentir para as pessoas para encobrir falhas no trabalho, isso é outra coisa.
Portanto, não podemos pensar nisso independentemente da aplicação: como as estatísticas estão sendo usadas? As substituições levarão a conclusões inválidas? Existem implicações éticas?
fonte
Este artigo de Cousineau e Chartier discute a substituição de valores discrepantes pela média
http://www.redalyc.org/pdf/2990/299023509004.pdf
Eles escrevem:
Há também um pacote "outliers" do R que tem uma função para substituir os outliers pela média. Também vi vários acertos na minha pesquisa no Google, o que implica que o SPSS também tem essa função, mas não estou familiarizado com esse programa. Talvez se você seguir os tópicos, possa descobrir a base técnica da prática.
Referências
fonte
A principal coisa a ter em mente quando se lida com discrepantes é se eles estão fornecendo informações úteis. Se você espera que eles ocorram regularmente, retirá-los dos dados garantirá que seu modelo nunca os preverá. Obviamente, depende do que você deseja que o modelo faça, mas vale lembrar que você não deve necessariamente abandoná-lo. Se eles contiverem informações importantes, considere um modelo que possa ser responsável por eles. Uma maneira simples de fazer isso é obter registros das variáveis, o que pode explicar os relacionamentos das leis de energia. Como alternativa, você pode usar um modelo que os responda com uma distribuição de erros com cauda de gordura.
Se você deseja cortá-las, as formas usuais são descartá - las ou Winsorise -as para remover os valores extremos. Não tenho um livro em mãos, mas os links do Wiki referem-se a alguns, se você quiser ler mais. A maioria dos textos sobre estatísticas aplicadas deve ter uma seção sobre valores discrepantes.
fonte
Estou ciente de duas abordagens semelhantes relacionadas nas estatísticas.
Para exemplos mais detalhados, consulte Wikipedia:
https://en.wikipedia.org/wiki/Trimmed_estimator
https://en.wikipedia.org/wiki/Winsorising
Observe que isso funciona bem para algumas estatísticas, como ao calcular a média. A média aparada / com vitórias médias é geralmente uma estimativa melhor da média verdadeira do que a média artihmetic. Em outros casos, isso pode arruinar suas estatísticas. Por exemplo, ao calcular a variação, o corte sempre subestima sua verdadeira variação. A Winsorização, supondo que algumas das observações extremas sejam defeituosas, funcionará um pouco melhor (provavelmente ainda subestimará, mas não tanto).
Não vejo como a substituição dos valores extremos pela média se encaixaria aqui.
No entanto, há outra prática relacionada: imputação de valor ausente . Supondo que o seu outlier seja falho, dados inúteis, então você o remove. Quando você executa a imputação, um valor substituto típico seria a média ou o modo:
https://en.wikipedia.org/wiki/Imputation_%28statistics%29
fonte
A abordagem tradicional para lidar com discrepantes é simplesmente removê-los, para que seu modelo seja treinado apenas com dados "bons".
Lembre-se de que o valor médio é afetado pela presença desses valores extremos. Se você substituir os outliers pela média calculada após a remoção dos outliers do seu conjunto de dados , não fará diferença, pois a linha de regressão (da regressão linear simples) passará pela média dos dados de treinamento de qualquer maneira (isso reduzirá a variação do seu estimativas, o que provavelmente é o oposto do que você deseja, pois sabe que existem discrepâncias).
O efeito que sua abordagem terá no modelo depende da influência (alavancagem) do discrepante. Eu recomendaria contra a abordagem que você sugere, em vez de apenas remover completamente o ponto.
fonte
sim, os outliers podem ser substituídos em várias formas, por exemplo, vamos usar um conjunto de dados do tamanho das alturas humanas, digamos que temos alguns outliers como 500 cm e 400 cm; basta substituir os pontos de dados que aparecem em o conjunto de dados devido a algum erro causado durante a gravação dos dados. portanto, as opções que você pode tentar são 1. substituí-lo pela cor Mediana da totalidade dos dados (não a média, pois é propensa a discrepâncias). 2. substitua pelo ponto de dados mais ocorrente na coluna. 3. Se os valores categoriais, você pode tentar a codificação de resposta (onde você registra a probabilidade da palavra ou os valores que ocorrem pelo número total de palavras)
fonte