Se deseja excluir casos sinalizados como outliers pelo software estatístico ao executar uma regressão múltipla?

23

Estou executando várias análises de regressão e não tenho certeza se os valores discrepantes nos meus dados devem ser excluídos. Os dados que me preocupam aparecem como "círculos" nos boxplots do SPSS, no entanto, não existem asteriscos (o que me faz pensar que eles não são "tão ruins"). Os casos com os quais me preocupo são exibidos na tabela "diagnóstico de casos" na saída - portanto, devo excluir esses casos?

Anon
fonte
Muito obrigado, Charlie e Epigrad. Você poderia sugerir qual gráfico do SPSS eu analiso para avaliar se existem valores discrepantes nos resíduos? O gráfico de dispersão parece bastante confuso! Não há nenhum problema com os dados como tais (como eles não foram inseridos incorretamente). Apenas acho que alguns dos meus participantes tiveram pontuações muito mais altas em algumas das minhas escalas, ou seja, porque estavam muito mais ansiosos socialmente que o restante da amostra.
Anon
3
Você deve plotar o valor previsto de y (o dado de acordo com o modelo que estima) no eixo x e os resíduos no eixo y. Em vez do valor previsto de y, você pode colocar um de seus preditores / variáveis ​​independentes no eixo x. Você pode criar vários gráficos, cada um com um preditor diferente no eixo x para ver qual valor x está levando ao comportamento externo. Mais uma vez, eu recomendaria contra a remoção de valores extremos; em vez disso, analise por que o outlier está ocorrendo.
Charlie
1
Ecoando a afirmação de Charlie, é o "porquê" que importa, e não o "se", e eu também alertaria contra a remoção deles. Não estou familiarizado com o SPSS, mas quaisquer recursos que você usou para executar a regressão também devem fornecer um gráfico de resíduos, ou pelo menos o valor deles que você pode usar para fazer o gráfico que Charlie sugere.
Fomite 12/09/11
@Anon Eu fundi suas duas contas. Registre-se para poder atualizar e / ou comentar sua pergunta.
chl
3
@ user603 Não, você não me leu corretamente. "Outlier" não significa nada - especialmente quando sinalizado por um procedimento automático em software estatístico. Existem tantos exemplos das descobertas importantes de um estudo nos "outliers". Sempre que houver dados que você está excluindo, deve ser por um motivo. "Eles são inconvenientes" não é um motivo.
Fomite

Respostas:

25

Sinalizar outliers não é uma decisão judicial (ou, em qualquer caso, não precisa ser uma). Dado um modelo estatístico, os outliers têm uma definição precisa e objetiva: são observações que não seguem o padrão da maioria dos dados. Tais observações precisam ser separadas no início de qualquer análise, simplesmente porque sua distância da maior parte dos dados garante que eles exercerão uma atração desproporcional sobre qualquer modelo multivariável ajustado pela máxima probabilidade (ou qualquer outra função de perda convexa).

É importante salientar que multivariável outlier s pode simplesmente não ser detectado com segurança utilizando resíduos a partir de um ajuste de mínimos quadrados (ou qualquer outro modelo estimado por ML, ou qualquer outra função perda convexa). Simplificando, os outliers multivariáveis ​​só podem ser detectados com segurança usando seus resíduos de um modelo ajustado usando um procedimento de estimativa não suscetível de ser influenciado por eles.

A crença de que os extremos serão necessários nos resíduos de um ajuste clássico está em algum lugar lá em cima, com outros não-não estatísticos difíceis de desmascarar, como interpretar valores-p como medida de evidência ou inferir uma população de uma amostra tendenciosa. Exceto, talvez, que este possa ser bem mais antigo: o próprio Gauss recomendou o uso de estimador robusto, como a mediana e a louca (em vez da média clássica e dos desvios-padrão) para estimar os parâmetros de uma distribuição normal a partir de observações barulhentas na medida em que deriva do fator de consistência do louco (1)).

Para dar um exemplo visual simples com base em dados reais, considere os infames dados estelares do CYG . A linha vermelha aqui representa o ajuste menos quadrado, a linha azul o ajuste obtido usando um ajuste de regressão linear robusto. O ajuste robusto aqui é o ajuste FastLTS (2), uma alternativa ao ajuste LS que pode ser usado para detectar valores discrepantes (porque utiliza um procedimento de estimativa que garante que a influência de qualquer observação no coeficiente estimado seja limitada). O código R para reproduzi-lo é:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

dados de estrelas

É interessante notar que as quatro observações à esquerda nem sequer têm os maiores resíduos com relação ao ajuste LS e o gráfico QQ dos resíduos do ajuste LS (ou qualquer uma das ferramentas de diagnóstico derivadas deles, como a distância de Cook ou o dfbeta) não mostra nenhum deles como problemático. Esta é realmente a norma: não são necessários mais de dois valores discrepantes (independentemente do tamanho da amostra) para extrair as estimativas de LS de tal maneira que os valores discrepantes não se destacariam em um gráfico residual. Isso é chamado de efeito de mascaramentoe está bem documentado. Talvez a única coisa notável sobre o conjunto de dados do CYGstars é que ele é bivariado (portanto, podemos usar a inspeção visual para confirmar o resultado do ajuste robusto) e que na verdade há uma boa explicação para o motivo pelo qual essas quatro observações à esquerda são tão anormais.

Esta é, aliás, a exceção mais que a regra: exceto em pequenos estudos-piloto envolvendo amostras pequenas e poucas variáveis ​​e onde a pessoa que fez a análise estatística também esteve envolvida no processo de coleta de dados, nunca experimentei um caso em que crenças anteriores sobre a identidade dos discrepantes era realmente verdadeira. A propósito, é fácil verificar isso. Independentemente de saber se os outliers foram identificados usando um algoritmo de detecção de outlier ou o instinto do pesquisador, os outliers são, por definição, observações que têm uma alavancagem anormal (ou 'puxada') sobre os coeficientes obtidos de um ajuste de LS. Em outras palavras, os valores extremos são observações cuja remoção da amostra deve impactar severamente o ajuste do LS.

Embora eu também nunca tenha experimentado isso pessoalmente, há alguns casos bem documentados na literatura em que observações marcadas como outliers por um algoritmo de detecção outlier foram mais tarde consideradas erros grosseiros ou geradas por um processo diferente. De qualquer forma, não é nem cientificamente garantido nem prudente remover apenas discrepâncias se elas puderem ser entendidas ou explicadas de alguma forma. Se uma pequena cabala de observações está tão distante do corpo principal dos dados que ela pode extrair sozinha os resultados de um procedimento estatístico por si só, é aconselhável (e devo acrescentar natural) tratá-la separadamente, independentemente de esses pontos de dados também são suspeitos por outros motivos.

(1): veja Stephen M. Stigler, The History of Statistics: The Measurement of Incerteza antes de 1900.

(2): Computando a regressão LTS para grandes conjuntos de dados (2006) PJ Rousseeuw, K. van Driessen.

(3): Métodos multivariados robustos de alta avaria (2008). Hubert M., Rousseeuw PJ e Van Aelst S. Fonte: Statist. Sci. Volume 23, 92-119.

user603
fonte
6
Isso é bom (+1). No entanto, acho que você usa mal a terminologia convencional e cooptou "outlier" para se referir a "observação influente". Os conceitos são valiosos e você os trata bem aqui, mas eles não são tão intercambiáveis ​​quanto você parece indicar. Por exemplo, uma observação influente que seja consistente com a maioria dos dados se ajustaria à sua caracterização de "observações que têm uma alavancagem anormal (ou 'puxada') sobre os coeficientes obtidos de um ajuste de LS", mas não seriam consideradas pela maioria dos escritores ser um "outlier" por si só.
whuber
2
@ whuber: Bom ponto. De fato, considero prejudiciais os livros didáticos recentes sobre estatística robusta (por exemplo, Estatística Robusta: Teoria e Métodos. Wiley), tais observações (chamadas "bons pontos de alavancagem"). A justificativa é que eles esvaziam o erro padrão dos coeficientes estimados, fazendo com que o usuário coloque confiança injustificada na força da relação observada. Considerar bons pontos de alavancagem como discrepantes também torna a abordagem formal mais consistente: afinal de contas, um bom ponto de alavancagem exerce uma influência excessiva sobre o SE, que é um componente do ajuste LS / ML.
user603
3
Um exemplo muito bom. Dados reais que mostram dois ajustes quase ortogonais e nos quais os quatro altamente influentes no canto superior esquerdo não terão os maiores resíduos após um ajuste OLS.
25313 Wayne
19

Em geral, tenho receio de remover "outliers". A análise de regressão pode ser aplicada corretamente na presença de erros distribuídos não normalmente, erros que exibem heterocedasticidade ou valores dos preditores / variáveis ​​independentes que estão "longe" do resto. O verdadeiro problema dos outliers é que eles não seguem o modelo linear que todos os outros pontos de dados seguem. Como você sabe se é esse o caso? Você não

Na verdade, você não deseja procurar valores de suas variáveis ​​discrepantes; em vez disso, você deseja procurar valores de seus resíduos que sejam discrepantes. Veja esses pontos de dados. Suas variáveis ​​estão registradas corretamente? Existe algum motivo para eles não seguirem o mesmo modelo que o restante dos seus dados?

Obviamente, a razão pela qual essas observações podem aparecer como discrepantes (de acordo com o diagnóstico residual) pode ser porque seu modelo está errado. Eu tenho um professor que gostava de dizer que, se jogássemos fora de campo, ainda acreditaríamos que os planetas giram em torno do sol em círculos perfeitos. Kepler poderia ter jogado fora Marte e a história da órbita circular teria parecido muito boa. Marte forneceu a ideia principal de que esse modelo estava incorreto e ele teria perdido esse resultado se ignorasse o planeta.

Você mencionou que remover os valores discrepantes não altera muito seus resultados. Ou isso ocorre porque você tem apenas um número muito pequeno de observações que você removeu em relação à sua amostra ou elas são razoavelmente consistentes com o seu modelo. Isso pode sugerir que, embora as próprias variáveis ​​possam parecer diferentes das demais, seus resíduos não são tão impressionantes. Eu os deixaria lá e não tentaria justificar minha decisão de remover alguns pontos para meus críticos.

Charlie
fonte
6
+1 Não jogue fora os dados, porque é um erro externo. Descubra por que alguns dados são distantes.
Fomite 12/09/11
2
este é um conselho terrível. É muito comum que os discrepantes estejam tão distantes do restante dos dados que puxem a linha de regressão em direção a eles de tal maneira que não se destacem em um gráfico residual (ou pior: gerem grandes resíduos para o genuíno Os pontos de dados). De fato, pode ser demonstrado que, assim que você tiver mais de um único desvio, ele não poderá ser detectado com segurança usando um gráfico residual de uma regressão clássica. Isso é chamado de efeito de mascaramento e estou bem documentado em muitos exemplos de dados reais.
user603
A propósito, também é por isso que eu evitaria usar o exemplo de Marte: ilustra um procedimento que só funciona se você estiver lidando com um único outlier. Na maioria das aplicações, não existe essa garantia. Dá um senso errado de confiança em uma metodologia geralmente falha (que como estatístico é realmente o que devemos prosperar para evitar).
user603
15

+1 em @Charlie e @PeterFlom; você está recebendo boas informações lá. Talvez eu possa dar uma pequena contribuição aqui desafiando a premissa da pergunta. Um boxplot normalmente (o software pode variar e eu não sei ao certo o que o SPSS está fazendo) aponta mais de 1,5 vezes o intervalo entre quartis acima (abaixo) do terceiro (primeiro) quartil como 'outliers'. No entanto, podemos perguntar com que frequência devemos esperar encontrar pelo menos um desses pontos quando sabemos que todos os pontos vêm da mesma distribuição? Uma simulação simples pode nos ajudar a responder a esta pergunta:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

O que isso demonstra é que se pode esperar que esses pontos ocorram comumente (> 50% do tempo) com amostras de tamanho 100, mesmo quando nada está errado. Como a última frase sugere, a probabilidade de encontrar um falso 'outlier' através da estratégia boxplot dependerá do tamanho da amostra:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Existem outras estratégias para identificar automaticamente valores discrepantes, mas esse método às vezes identifica pontos válidos como 'outliers' e, às vezes, identifica erros outliers verdadeiros como 'pontos válidos'. (Você pode pensar neles como erros do tipo I e tipo II .) Meu pensamento sobre esse assunto (pelo que vale a pena) é focar nos efeitos de incluir / excluir os pontos em questão. Se seu objetivo for previsão, você poderá usar a validação cruzada para determinar se / quanto a inclusão dos pontos em questão aumenta o erro quadrático médio da previsão . Se seu objetivo é explicação, você pode olhar para o dfBeta(ou seja, observe o quanto as estimativas beta do seu modelo mudam, dependendo se os pontos em questão estão incluídos ou não). Outra perspectiva (sem dúvida a melhor) é evitar ter que escolher se pontos aberrantes devem ser jogados fora, e apenas usar análises robustas .

- Reinstate Monica
fonte
Os procedimentos que você recomenda apenas funcionam de maneira confiável se houver no máximo um único erro (independentemente do tamanho do seu conjunto de dados), que é uma suposição irrealista. Tukey calibrou a regra do whisker para excluir aproximadamente 1% das observações em cada extremidade, se os dados forem obtidos de uma distribuição gaussiana. Suas simulações confirmam isso. A opinião de Tukey era que as perdas causadas por desconsiderar uma parcela tão pequena dos dados nos casos em que as observações são bem comportadas são irrelevantes para todas as preocupações práticas. Especialmente no que diz respeito aos benefícios nos casos em que os dados não são.
user603
2
Obrigado pelo seu comentário, @ user603; essa é uma posição instigante. Quais procedimentos que eu recomendo que você se oponha: usando, por exemplo, dfbeta para detectar possíveis valores discrepantes, ou usando análises robustas (prototipicamente o bisquare de Tukey como uma função de perda alternativa) como proteção contra sua influência, em vez de escolher quais pontos de dados serão descartados?
gung - Restabelece Monica
obrigado por apontar a falta de clareza no meu comentário (eu estava limitado pelo limite de comprimento). Naturalmente, quero dizer especificamente os primeiros: dfbeta e validação cruzada (a última é problemática apenas se as observações usadas para realizar a validação cruzada forem retiradas aleatoriamente da amostra original. Um exemplo de caso em que a validação cruzada poderia ser usada estar na configuração de controle de qualidade em que as observações usadas para o teste são extraídas de uma amostra temporariamente disjunta).
user603
Obrigado por esclarecer, @ user603. Vou ter que jogar com essas idéias para entendê-las mais a fundo. Minha intuição é que seria muito difícil não perceber discrepâncias que estão distorcendo seus resultados; parece que você precisaria ter valores discrepantes distorcendo igualmente os resultados de ambos os lados; nesse caso, seus betas acabariam aproximadamente imparciais e seus resultados seriam simplesmente menos "significativos".
gung - Restabelece Monica
1
Minha intuição é que seria muito difícil não perceber discrepâncias que estão distorcendo seus resultados, mas, infelizmente, o fato é que não é assim. Veja também o exemplo que forneço na minha resposta.
user603
12

Você deve primeiro examinar os gráficos dos resíduos: eles seguem (aproximadamente) uma distribuição normal? Eles mostram sinais de heterocedasticidade? Observe também outras plotagens (eu não uso o SPSS, portanto, não posso dizer exatamente como fazer isso nesse programa, nem quais boxplots você está vendo; no entanto, é difícil imaginar que asteriscos signifiquem "não tão ruim", provavelmente significam que estes são pontos altamente incomuns por algum critério).

Então, se você tiver discrepâncias, olhe para elas e tente descobrir o porquê.

Depois, você pode tentar a regressão com e sem os valores extremos. Se os resultados forem semelhantes, a vida é boa. Relate os resultados completos com uma nota de rodapé. Se não for semelhante, você deve explicar as duas regressões.

Peter Flom - Restabelece Monica
fonte
1
Muito obrigado Peter. Inspecionei os gráficos de QQ e os dados não parecem extraordinariamente normais. Quando eu excluo os valores discrepantes, eles não parecem fazer muita diferença nos resultados. Portanto, devo apenas deixá-los lá? Eu ainda estaria interessado em ouvir os pensamentos de outras pessoas na tabela de diagnóstico de casos no SPSS. Muito Obrigado.
Anon
1
Sim, eu os deixaria com uma nota de rodapé, algo como "a análise com vários outliers excluídos mostrou resultados muito semelhantes"
Peter Flom - Restabelecer Monica
2
Mesmo supondo que alguém possa encontrar outliers confiáveis ​​usando esse procedimento (e na maioria das vezes não se pode ) que ainda deixa estranhamente sem solução o problema do que fazer quando você não pode "descobrir" / explicar os outliers. Eu segundo o conselho para ficar longe do SPSS. -
user603