Onde estão os resíduos em um GLM?

8

Agora, estou passando para os GLMs depois dos modelos padrão.

No modelo padrão,

y = Xb + epsilon

e epsilon é assumido como sendo normalmente distribuído. Isso significa que podemos escrever

y - Xb = epsilon

e então podemos minimizar o lhs usando alguma norma adequada, dada a suposição de normalidade.

Em um GLM, esses resíduos não são vistos em lugar algum; então, quais são as suposições residuais? Ou seja, quando você ajusta um GLM e determina os resíduos, como você verifica sua suposição de distribuição? Um qqplot? Contra o que? Os quantis normais? Ou os quantis da distribuição que você escolheu?

O GLM como eu o entendo:

mu = Xb, mu = Ey, y follows some non-Gaussian distribution.
Esperar
fonte
2
Intimamente relacionados: stats.stackexchange.com/questions/259704/…
Tim
11
(+1) Algumas das ocorrências em uma pesquisa de site focada em resíduos de desvio de GLM são instrutivas.
whuber
Eu li algo sobre resíduos quantílicos normalizados, que sempre devem ser normalmente distribuídos, dadas as suposições do modelo. Eles podem ser usados ​​em plotagens qq regulares em oposição aos resíduos padrão?
Aguarde

Respostas:

7

Os resíduos específicos dependem da distribuição utilizada e das características da variável dependente. Às vezes, eles não são muito informativos e, às vezes, não podem ser computados facilmente.

A utilidade dos resíduos também varia muito na avaliação de como o modelo funciona. A regressão logística de uma variável binária é um bom exemplo. Todos os resíduos podem ser calculados, mas é difícil compreendê-los sem um resumo, como calibração e teste de Hosmer-Lemeshow. Resumos de outros tipos, por exemplo, por outra variável categórica, também podem ser úteis. Às vezes, você pode aprender comparando as probabilidades estimadas de dois modelos diferentes.

  • Para regressão logística ordinal ou nominal com várias categorias, você pode calcular um conjunto de probabilidades para cada observação. Isso pode ser útil, mas é difícil de interpretar com métodos gráficos diretos ou estatísticas resumidas.

  • Os resíduos para dados de sobrevivência censurados não são definidos de forma única. O tempo estimado de sobrevivência pode ser maior ou menor que o tempo de censura.

  • Os resíduos para variáveis ​​dependentes altamente inclinadas, por exemplo, exponencial, binomial negativo, Poisson, etc., podem ser enganosos em exibições gráficas, pois os modelos não reduzem ou removem a assimetria. Eles deixam você com a impressão de muitos grandes outliers. Às vezes, é melhor examiná-las em uma escala transformada, como logs.

Portanto, não há resposta de propósito geral para sua pergunta. O uso de resíduos depende do modelo.

Para os resíduos gaussianos, a história é mais fácil. Infelizmente, muitas vezes descobrimos que há problemas com um modelo linear que não são resolvíveis de maneira simplista e algorítmica.

David Smith
fonte
5

Além da resposta de @ DavidSmith, segue uma terminologia mais formal:

Modelos lineares generalizados invocam uma relação de variação média como conseqüência da função de link. Não há resíduos em um GLM porque a variação é apenas uma função da média. Então, quando escrevemos um GLM, ele tem a forma:

g(E[Y|X])=βX

Onde g é uma função de link, os termos βX são os preditores lineares ν e os valores transformados g-1 1(βX)são os valores ajustados. Em geral, o caso é queE[Y]=g-1 1(βX) implica vumar(Y)=βg-1 1(βX). Por exemplo, com regressão logística, o link de logit inversog-1 1(x)=registro(X1 1-X) tem g-1 1(X)=registro(1 11 1-X)=g-1 1(X)(1 1-g-1 1(X)) com a segunda expressão facilmente reconhecida como a variação binomial.

Ao escrever as equações de estimativa para modelos de probabilidade comuns, como binomial, poisson ou exponencial, você realmente observa que a informação (ou variação) depende da média e nada mais. Esses modelos de um parâmetro, como o nome sugere, usam apenas um parâmetro (como probabilidades de log ou taxa relativa de log) para relacionar o resultado esperado a uma combinação linear de preditores e a uma função de link correspondente. A função de influência (gradiente ou derivada) do link relaciona a média à variância.

Os modelos de probabilidade gaussiana diferem dos modelos binomiais (logísticos), pois são dois modelos de parâmetros, incluindo um termo de dispersão (sigma ou variação residual). Um modelo gaussiano também é diferente de outros 2 modelos de parâmetros (como binomial negativo ou Gama) porque você pode escrever a variação residual como um termo separado em um modelo.

Basicamente, os mínimos quadrados comuns com erro normal e independente é o único caso que sei onde podemos realmente escrever: y=βX+ϵ significativamente.

A questão maior de como você relaciona os resultados esperados aos resultados observados é complicada. Em um modelo normal, essa é uma diferença simples do esperado e observado para obter um resíduo. Nos GLMs, a variação é heterocedástica, porque a média muda em função daX, para que você possa padronizar cada resíduo dividindo pelo erro padrão esperado para obter resíduos de Pearson.

AdamO
fonte