Informações fora da matriz hat para regressão logística

12

É claro para mim, e bem explicado em vários sites, quais informações os valores na diagonal da matriz hat fornecem regressão linear.

A matriz hat de um modelo de regressão logística é menos clara para mim. É idêntico à informação que você obtém da matriz hat, aplicando regressão linear? Esta é a definição da matriz de chapéu que encontrei em outro tópico do CV (fonte 1):

H=VX(XVX)1XV

com X o vetor de variáveis ​​preditoras e V é uma matriz diagonal com (π(1π)) .

Em outras palavras, também é verdade que o valor particular da matriz hat de uma observação também apenas apresenta a posição das covariáveis ​​no espaço covariável e não tem nada a ver com o valor final dessa observação?

Isso está escrito no livro "Análise de dados categóricos" da Agresti:

Quanto maior a alavancagem de uma observação, maior sua potencial influência no ajuste. Como na regressão comum, as alavancas caem entre 0 e 1 e somam o número de parâmetros do modelo. Diferentemente da regressão comum, os valores do chapéu dependem do ajuste e da matriz do modelo, e os pontos com valores preditivos extremos não precisam ter alta alavancagem.

Então, fora dessa definição, parece que não podemos usá-lo como o usamos na regressão linear comum?

Fonte 1: Como calcular a matriz hat para regressão logística em R?

Kasper
fonte

Respostas:

13

Deixe-me mudar um pouco a notação e escrever a matriz do chapéu como ondeVé uma matriz simétrica diagonal com elementos geraisvj=mjπ(xj)[1-π(xj)]. Denunciemjcomo os grupos de indivíduos com o mesmo valor covariávelx=xj. É possível obter ojthelemento diagonal (hj) da matriz como chapéu hj=mjπ(xj

H=V12X(XVX)1XV12
Vvj=mjπ(xj)[1π(xj)]mjx=xjjthhj Então a soma de h j fornece o número de parâmetros como na regressão linear. Agora à sua pergunta:
hj=mjπ(xj)[1π(xj)]xj(XVX)1xj
hj

π0.1<π<0.9 , você pode interpretar os valores de alavancagem de maneira semelhante à do caso de regressão linear, ou seja, estar mais longe da média fornece valores mais altos. Se você estiver no extremo da distribuição de probabilidade, esses valores de alavancagem podem não medir mais a distância no mesmo sentido. Isso é mostrado na figura abaixo, extraída de Hosmer e Lemeshow (2000):

insira a descrição da imagem aqui

xj(XVX)1xjhj, portanto, essa parte monotônica separada raramente é considerada sozinha.

Se você quiser ler mais sobre este tópico, dê uma olhada no artigo de Pregibon (1981), que derivou a matriz do chapéu logístico, e no livro de Hosmer e Lemeshow (2000).

Andy
fonte