Segundo meu entendimento, a distância de Cook mede a influência de cada observação excluindo pontos ao ajustar um modelo. Então, eu suponho que poderia ser uma abordagem razoável para detecção de outlier?
Minhas perguntas, suponha que os dados sejam categorizados em grupos, é possível usar a distância de Cook para detectar o grupo "outlier" em vez do ponto outlier? A distância de Cook é uma boa opção para medir a influência do grupo.
influence()
. Eu tenho outra pergunta sobre o limite. Como o 4 / N usual é "muito sensível", detecta valores extremos, enquanto eu me importo apenas com pontos / grupos influentes extremos. @jchaykowRespostas:
Como você disse, a Distância de Cook mede a mudança na regressão removendo cada ponto individual. Se as coisas mudam um pouco pela omissão de um único ponto, esse ponto está tendo muita influência em seu modelo. DefinirY^j ( i ) ser o valor ajustado para a j-ésima observação quando a i-ésima observação for excluída do conjunto de dados. Distância de Cook mede quantoEu altera todas as previsões.
E seDEu≥ 1 é extremo (para conjuntos de dados pequenos e médios).
A Distância de Cook mostra o efeito do i-ésimo caso em todos os valores ajustados. Observe que o i-ésimo caso pode ser influenciado por
grandeeEu e moderado heu eu
moderadoeEu e grande heu eu
grandeeEu e grande heu eu
Em R, use o
influence.measures
pacote comcooks.distance(model)
fonte
O D de Cook é ineficaz na detecção de agrupamentos de valores discrepantes porque a remoção de um deles não afetará muito o modelo (ainda existem outros discrepantes).
Você pode usar o residual como uma medida, sensível a clusters. Uma simples implementação de k-means também é eficaz.
fonte