Como ler os gráficos de distância de Cook?

40

Alguém sabe como descobrir se os pontos 7, 16 e 29 são pontos influentes ou não? Li em algum lugar que, como a distância de Cook é menor que 1, eles não são. Estou certo?

insira a descrição da imagem aqui

Platypezid
fonte
11
Existem várias opiniões. Alguns deles estão relacionados ao número de observações ou ao número de parâmetros. Estes são esboçados em en.wikipedia.org/wiki/… .
whuber
@whuber Obrigado. Essa é sempre uma área cinzenta ao executar a exploração de dados para mim. O ponto de dados 16 acima influencia massivamente os resultados do modelo, aumentando assim os erros do tipo I.
Platypezid 02/02
2
Pode-se argumentar que também aumenta os erros do "Tipo III", que (genericamente e informalmente) são erros relacionados à inaplicabilidade do modelo de probabilidade subjacente.
whuber
@ whuber sim, muito verdade!
Platypezid

Respostas:

43

Alguns textos informam que pontos para os quais a distância de Cook é maior que 1 devem ser considerados influentes. Outros textos fornecem um limite de ou 4 / ( N - k - 1 ) , onde N é o número de observações ek o número de variáveis ​​explicativas. No seu caso, a última fórmula deve gerar um limite em torno de 0,1.4/N4/(N-k-1 1)Nk

John Fox (1), em seu livreto sobre diagnóstico de regressão, é bastante cauteloso quando se trata de fornecer limites numéricos. Ele aconselha o uso de gráficos e examina com mais detalhes os pontos com "valores de D que são substancialmente maiores que os demais". Segundo Fox, os limiares devem ser usados ​​apenas para aprimorar as exibições gráficas.

No seu caso, as observações 7 e 16 podem ser consideradas influentes. Bem, eu teria pelo menos uma olhada neles. A observação 29 não é substancialmente diferente de algumas outras observações.


(1) Fox, John. (1991). Diagnóstico de regressão: uma introdução . Publicações prudentes.


fonte
9
+1 Limpar resumo. Gostaria de acrescentar que casos influentes geralmente não são um problema quando a sua remoção do conjunto de dados deixaria o parâmetro estima essencialmente inalterada: as que se preocupar são aqueles cuja presença realmente não alterar os resultados.
whuber
11
@lejohn Muito grato por sua resposta. Whuber tem uma excelente clareza na resposta. Isso é muito informativo. Posso sugerir que você destaque a Fox e suas opiniões na página da Wikipedia!
Platypezid 02/02/12
29

kk+1 1β0 0β

Há um outro ponto que vale a pena mencionar aqui. Na pesquisa observacional, muitas vezes é difícil fazer uma amostragem uniforme no espaço do preditor, e você pode ter apenas alguns pontos em uma determinada área. Tais pontos podem divergir do resto. Ter alguns casos distintos pode ser desconcertante, mas merece uma reflexão considerável antes de ser rebaixado. Pode haver legitimamente uma interação entre os preditores ou o sistema pode mudar para se comportar de maneira diferente quando os valores dos preditores se tornarem extremos. Além disso, eles podem ajudar a desvendar os efeitos dos preditores colineares. Pontos influentes podem ser uma bênção disfarçada.

- Reinstate Monica
fonte
6
+1 "A distância de Cook é presumivelmente mais importante para você se você estiver fazendo modelagem preditiva, enquanto dfbeta é mais importante na modelagem explicativa": esse é um conselho muito útil.
Anne Z.
Oi - discussão interessante. Mas não seria racional integrar uma variável dummy para medir o efeito, por exemplo, da observação 16?
Pantera
@Pantera I removido e 16 comparadas as pré & OMISSÃO pós modelos
Platypezid
Oi - se você remover as observações, certifique-se de ter um argumento "bom" para fazê-lo, por exemplo, que a observação seja medida incorretamente. Se descartamos a observação porque eles apenas causam algum problema estatístico, estamos perto da mineração de dados.
Pantera