Estou executando várias análises de regressão e não tenho certeza se os valores discrepantes nos meus dados devem ser excluídos. Os dados que me preocupam aparecem como "círculos" nos boxplots do SPSS, no entanto, não existem asteriscos (o que me faz pensar que eles não são "tão ruins"). Os casos com os quais me preocupo são exibidos na tabela "diagnóstico de casos" na saída - portanto, devo excluir esses casos?
regression
outliers
Anon
fonte
fonte
Respostas:
Sinalizar outliers não é uma decisão judicial (ou, em qualquer caso, não precisa ser uma). Dado um modelo estatístico, os outliers têm uma definição precisa e objetiva: são observações que não seguem o padrão da maioria dos dados. Tais observações precisam ser separadas no início de qualquer análise, simplesmente porque sua distância da maior parte dos dados garante que eles exercerão uma atração desproporcional sobre qualquer modelo multivariável ajustado pela máxima probabilidade (ou qualquer outra função de perda convexa).
É importante salientar que multivariável outlier s pode simplesmente não ser detectado com segurança utilizando resíduos a partir de um ajuste de mínimos quadrados (ou qualquer outro modelo estimado por ML, ou qualquer outra função perda convexa). Simplificando, os outliers multivariáveis só podem ser detectados com segurança usando seus resíduos de um modelo ajustado usando um procedimento de estimativa não suscetível de ser influenciado por eles.
A crença de que os extremos serão necessários nos resíduos de um ajuste clássico está em algum lugar lá em cima, com outros não-não estatísticos difíceis de desmascarar, como interpretar valores-p como medida de evidência ou inferir uma população de uma amostra tendenciosa. Exceto, talvez, que este possa ser bem mais antigo: o próprio Gauss recomendou o uso de estimador robusto, como a mediana e a louca (em vez da média clássica e dos desvios-padrão) para estimar os parâmetros de uma distribuição normal a partir de observações barulhentas na medida em que deriva do fator de consistência do louco (1)).
Para dar um exemplo visual simples com base em dados reais, considere os infames dados estelares do CYG . A linha vermelha aqui representa o ajuste menos quadrado, a linha azul o ajuste obtido usando um ajuste de regressão linear robusto. O ajuste robusto aqui é o ajuste FastLTS (2), uma alternativa ao ajuste LS que pode ser usado para detectar valores discrepantes (porque utiliza um procedimento de estimativa que garante que a influência de qualquer observação no coeficiente estimado seja limitada). O código R para reproduzi-lo é:
É interessante notar que as quatro observações à esquerda nem sequer têm os maiores resíduos com relação ao ajuste LS e o gráfico QQ dos resíduos do ajuste LS (ou qualquer uma das ferramentas de diagnóstico derivadas deles, como a distância de Cook ou o dfbeta) não mostra nenhum deles como problemático. Esta é realmente a norma: não são necessários mais de dois valores discrepantes (independentemente do tamanho da amostra) para extrair as estimativas de LS de tal maneira que os valores discrepantes não se destacariam em um gráfico residual. Isso é chamado de efeito de mascaramentoe está bem documentado. Talvez a única coisa notável sobre o conjunto de dados do CYGstars é que ele é bivariado (portanto, podemos usar a inspeção visual para confirmar o resultado do ajuste robusto) e que na verdade há uma boa explicação para o motivo pelo qual essas quatro observações à esquerda são tão anormais.
Esta é, aliás, a exceção mais que a regra: exceto em pequenos estudos-piloto envolvendo amostras pequenas e poucas variáveis e onde a pessoa que fez a análise estatística também esteve envolvida no processo de coleta de dados, nunca experimentei um caso em que crenças anteriores sobre a identidade dos discrepantes era realmente verdadeira. A propósito, é fácil verificar isso. Independentemente de saber se os outliers foram identificados usando um algoritmo de detecção de outlier ou o instinto do pesquisador, os outliers são, por definição, observações que têm uma alavancagem anormal (ou 'puxada') sobre os coeficientes obtidos de um ajuste de LS. Em outras palavras, os valores extremos são observações cuja remoção da amostra deve impactar severamente o ajuste do LS.
Embora eu também nunca tenha experimentado isso pessoalmente, há alguns casos bem documentados na literatura em que observações marcadas como outliers por um algoritmo de detecção outlier foram mais tarde consideradas erros grosseiros ou geradas por um processo diferente. De qualquer forma, não é nem cientificamente garantido nem prudente remover apenas discrepâncias se elas puderem ser entendidas ou explicadas de alguma forma. Se uma pequena cabala de observações está tão distante do corpo principal dos dados que ela pode extrair sozinha os resultados de um procedimento estatístico por si só, é aconselhável (e devo acrescentar natural) tratá-la separadamente, independentemente de esses pontos de dados também são suspeitos por outros motivos.
(1): veja Stephen M. Stigler, The History of Statistics: The Measurement of Incerteza antes de 1900.
(2): Computando a regressão LTS para grandes conjuntos de dados (2006) PJ Rousseeuw, K. van Driessen.
(3): Métodos multivariados robustos de alta avaria (2008). Hubert M., Rousseeuw PJ e Van Aelst S. Fonte: Statist. Sci. Volume 23, 92-119.
fonte
Em geral, tenho receio de remover "outliers". A análise de regressão pode ser aplicada corretamente na presença de erros distribuídos não normalmente, erros que exibem heterocedasticidade ou valores dos preditores / variáveis independentes que estão "longe" do resto. O verdadeiro problema dos outliers é que eles não seguem o modelo linear que todos os outros pontos de dados seguem. Como você sabe se é esse o caso? Você não
Na verdade, você não deseja procurar valores de suas variáveis discrepantes; em vez disso, você deseja procurar valores de seus resíduos que sejam discrepantes. Veja esses pontos de dados. Suas variáveis estão registradas corretamente? Existe algum motivo para eles não seguirem o mesmo modelo que o restante dos seus dados?
Obviamente, a razão pela qual essas observações podem aparecer como discrepantes (de acordo com o diagnóstico residual) pode ser porque seu modelo está errado. Eu tenho um professor que gostava de dizer que, se jogássemos fora de campo, ainda acreditaríamos que os planetas giram em torno do sol em círculos perfeitos. Kepler poderia ter jogado fora Marte e a história da órbita circular teria parecido muito boa. Marte forneceu a ideia principal de que esse modelo estava incorreto e ele teria perdido esse resultado se ignorasse o planeta.
Você mencionou que remover os valores discrepantes não altera muito seus resultados. Ou isso ocorre porque você tem apenas um número muito pequeno de observações que você removeu em relação à sua amostra ou elas são razoavelmente consistentes com o seu modelo. Isso pode sugerir que, embora as próprias variáveis possam parecer diferentes das demais, seus resíduos não são tão impressionantes. Eu os deixaria lá e não tentaria justificar minha decisão de remover alguns pontos para meus críticos.
fonte
+1 em @Charlie e @PeterFlom; você está recebendo boas informações lá. Talvez eu possa dar uma pequena contribuição aqui desafiando a premissa da pergunta. Um boxplot normalmente (o software pode variar e eu não sei ao certo o que o SPSS está fazendo) aponta mais de 1,5 vezes o intervalo entre quartis acima (abaixo) do terceiro (primeiro) quartil como 'outliers'. No entanto, podemos perguntar com que frequência devemos esperar encontrar pelo menos um desses pontos quando sabemos que todos os pontos vêm da mesma distribuição? Uma simulação simples pode nos ajudar a responder a esta pergunta:
O que isso demonstra é que se pode esperar que esses pontos ocorram comumente (> 50% do tempo) com amostras de tamanho 100, mesmo quando nada está errado. Como a última frase sugere, a probabilidade de encontrar um falso 'outlier' através da estratégia boxplot dependerá do tamanho da amostra:
Existem outras estratégias para identificar automaticamente valores discrepantes, mas esse método às vezes identifica pontos válidos como 'outliers' e, às vezes, identifica erros outliers verdadeiros como 'pontos válidos'. (Você pode pensar neles como erros do tipo I e tipo II .) Meu pensamento sobre esse assunto (pelo que vale a pena) é focar nos efeitos de incluir / excluir os pontos em questão. Se seu objetivo for previsão, você poderá usar a validação cruzada para determinar se / quanto a inclusão dos pontos em questão aumenta o erro quadrático médio da previsão . Se seu objetivo é explicação, você pode olhar para o dfBeta(ou seja, observe o quanto as estimativas beta do seu modelo mudam, dependendo se os pontos em questão estão incluídos ou não). Outra perspectiva (sem dúvida a melhor) é evitar ter que escolher se pontos aberrantes devem ser jogados fora, e apenas usar análises robustas .
fonte
Você deve primeiro examinar os gráficos dos resíduos: eles seguem (aproximadamente) uma distribuição normal? Eles mostram sinais de heterocedasticidade? Observe também outras plotagens (eu não uso o SPSS, portanto, não posso dizer exatamente como fazer isso nesse programa, nem quais boxplots você está vendo; no entanto, é difícil imaginar que asteriscos signifiquem "não tão ruim", provavelmente significam que estes são pontos altamente incomuns por algum critério).
Então, se você tiver discrepâncias, olhe para elas e tente descobrir o porquê.
Depois, você pode tentar a regressão com e sem os valores extremos. Se os resultados forem semelhantes, a vida é boa. Relate os resultados completos com uma nota de rodapé. Se não for semelhante, você deve explicar as duas regressões.
fonte