Família de GLM representa a distribuição da variável de resposta ou resíduos?

13

Estive discutindo com vários membros do laboratório sobre esse assunto e fomos a várias fontes, mas ainda não temos a resposta:

Quando dizemos que um GLM tem uma família de poisson , digamos que estamos falando sobre a distribuição dos resíduos ou a variável de resposta?

Pontos de discórdia

  1. Ao ler este artigo, afirma que as suposições do GLM são: A independência estatística das observações, a especificação correta da função de link e variância (o que me faz pensar sobre os resíduos, não a variável de resposta), a escala correta de medição para a variável de resposta e falta de influência indevida de pontos únicos

  2. Essa pergunta tem duas respostas com dois pontos cada, a que aparece primeiro fala sobre os resíduos e a segunda sobre a variável resposta, qual é?

  3. Neste post do blog , ao falar sobre suposições, eles afirmam " A distribuição dos resíduos pode ser outra, por exemplo, binomial "

  4. No início deste capítulo, eles dizem que a estrutura dos erros deve ser Poisson, mas os resíduos certamente terão valores positivos e negativos, como pode ser Poisson?

  5. Esta pergunta, que é freqüentemente citada em perguntas como esta para duplicá-las, não tem uma resposta aceita

  6. Esta pergunta as respostas falam sobre resposta e não resíduos

  7. Na presente descrição do curso da Universidade de Pensilvania eles falam sobre a variável resposta nas suposições, e não os resíduos

Derek Corcoran
fonte

Respostas:

18

O argumento da família para os modelos glm determina a família de distribuição para a distribuição condicional da resposta , não dos resíduos (exceto para os quase- modelos).

YiNormal(β0+xiTβ,σ2).
Yiii
Yi=β0+xiTβ+ϵi
ϵiNormal(0,σ2)

β0+xiTβϵi

Portanto, para todas as outras famílias, usamos uma definição no estilo da primeira equação exibida acima. Ou seja, a distribuição condicional da resposta. Portanto, não, os resíduos (o que for definido) na regressão de Poisson não têm uma distribuição de Poisson.

kjetil b halvorsen
fonte
13

Além da excelente resposta de Kjetil, eu gostaria de adicionar alguns exemplos específicos para ajudar a esclarecer o significado de uma distribuição condicional , que pode ser um conceito um tanto esquivo.

Digamos que você tenha colhido uma amostra aleatória de 100 peixes de um lago e esteja interessado em ver como a idade do peixe afeta várias variáveis ​​de resultado:

  1. Peso do peixe (peso);
  2. Se o peixe tem ou não mais de 30 cm;
  3. Número de escamas de peixe.

A primeira variável de resultado é contínua, a segunda é binária (0 = peixe NÃO tem mais de 30 cm; 1 = peixe tem mais de 30 cm) e a terceira é uma variável de contagem.

Regressão linear simples

Como a idade afeta o peso? Você vai formular um modelo de regressão linear simples do formulário:

Weight=β0+β1Age+ϵ

ϵσβ0+β1Age

Regressão logística binária simples

Como o Age afeta se o peixe tem ou não mais de 30 cm? Você vai formular um modelo de regressão logística binária simples do formulário:

log(p1p)=β0+β1Age

pβ0+β1Agepp(1p)

Regressão simples de Poisson

Como o Age afeta o número de escamas de peixe? Você vai formular um modelo de regressão simples de Poisson da forma:

log(μ)=β0+β1Age

μβ0+β1Age

Em resumo, uma distribuição condicional representa a distribuição dos valores dos resultados para valores específicos da (s) variável (s) preditora (s) incluída (s) no modelo . Cada tipo de modelo de regressão ilustrado acima impõe certas suposições distributivas na distribuição condicional da variável de resultado dada a Idade. Com base nessas premissas distributivas, o modelo prossegue para formular como (1) a média da distribuição condicional varia em função da idade (regressão linear simples), (2) a média transformada em logit da distribuição condicional varia em função da idade (regressão logística binária simples) ou (3) a média transformada em log da distribuição condicional varia em função da idade.

Para cada tipo de modelo, é possível definir os resíduos correspondentes para fins de verificação do modelo. Em particular, os resíduos de Pearson e de desvio podem ser definidos para os modelos de regressão logística e de Poisson.

Isabella Ghement
fonte
2
Excelentes respostas. Graças a vocês dois. Eu nunca percebi que o residual "real" nunca é realmente explícito na estrutura geral do GLM, como no caso de distribuição normal.
mlofton
1
@mlofton: Obrigado por suas amáveis ​​palavras. Uma excelente pergunta convidou excelentes respostas. Todos nós nos beneficiamos dessa troca de conhecimentos.
Isabella Ghement 30/10
4
Eu usei o GLM há muito tempo (por um ano ou dois, como 10 anos atrás) e essa sempre foi minha confusão, mas eu nunca soube que era minha confusão até que ela foi perguntada com tanta clareza e explicada com tanta clareza. Então, às vezes, confusão significa nem ser capaz de fazer a pergunta certa. Obrigado novamente.
mlofton
1
Você está absolutamente certo! A confusão faz parte do aprendizado - quando lutamos com algo por um tempo, somos preparados para entendê-lo melhor quando de repente nos deparamos com uma explicação clara.
Isabella Ghement
1
Meu prazer e obrigado pela sua excelente resposta @IsabellaGhement
Patrick