Modelo linear geral vs. modelo linear generalizado (com uma função de vínculo de identidade?)

25

Este é o meu primeiro post, portanto, fique tranquilo se eu não estiver seguindo alguns padrões! Fiz uma busca pela minha pergunta e nada apareceu.

Minha pergunta está relacionada principalmente às diferenças práticas entre modelagem linear geral (GLM) e modelagem linear generalizada (GZLM). No meu caso, seriam algumas variáveis ​​contínuas como covariáveis ​​e alguns fatores em uma ANCOVA versus GZLM. Quero examinar os principais efeitos de cada variável, bem como uma interação de três vias que descreverei no modelo. Eu posso ver essa hipótese sendo testada em uma ANCOVA ou usando GZLM. Até certo ponto, compreendo os processos matemáticos e o raciocínio por trás da execução de um modelo linear geral como uma ANCOVA, e de certa forma entendo que os GZLMs permitem uma função de link que conecta o modelo linear e a variável dependente (ok, eu menti, talvez eu não realmente entender a matemática). O que eu realmente não sei Não entendo as diferenças ou razões práticas para executar uma análise e não a outra quando a distribuição de probabilidade usada no GZLM é normal (ou seja, função de vínculo de identidade?). Eu obtenho resultados muito diferentes quando corro um sobre o outro. Eu poderia correr também? Meus dados não são normais, mas funcionam até certo ponto tanto na ANCOVA quanto na GZLM. Nos dois casos, minha hipótese é suportada, mas no GZLM o valor de p é "melhor".

Meu pensamento era que uma ANCOVA é um modelo linear com uma variável dependente normalmente distribuída usando uma função de link de identidade, que é exatamente o que eu posso inserir em um GZLM, mas eles ainda são diferentes.

Por favor, elimine essas perguntas para mim, se puder!


Com base na primeira resposta, tenho a pergunta adicional:

Se eles são idênticos, exceto pelo teste de significância utilizado (ou seja, teste F vs. Wald Chi Square), qual seria o mais apropriado para usar? ANCOVA é o "método obrigatório", mas não sei por que o teste F seria preferível. Alguém pode lançar alguma luz sobre esta questão para mim? Obrigado!

Behacad
fonte
tF

Respostas:

23

Um modelo linear generalizado que especifica uma função de vínculo de identidade e uma distribuição familiar normal é exatamente equivalente a um modelo linear (geral). Se você está obtendo resultados visivelmente diferentes de cada um, está fazendo algo errado.

Observe que especificar um link de identidade não é o mesmo que especificar uma distribuição normal. A distribuição e a função de link são dois componentes diferentes do modelo linear generalizado, e cada um pode ser escolhido independentemente do outro (embora certos links funcionem melhor com determinadas distribuições, a maioria dos pacotes de software especifica a escolha de links permitidos para cada distribuição).

pptFtF o software para modelos lineares generalizados também pode usá-los como aproximações ao ajustar outras famílias com um parâmetro de escala estimado a partir dos dados.

uma parada
fonte
Obrigado por sua resposta! Fico feliz em ouvir sua resposta, pois essa foi minha suposição original. Foi-me dito o contrário por um professor da minha instituição, então eu realmente tive que cavar. Estou usando o SPSS e agora vejo que as estimativas de parâmetros são realmente idênticas (por exemplo, valores B). Vejo agora que o que me confundiu originalmente foram os diferentes valores de p. A estatística ANCOVA é baseada em um teste F padrão, enquanto o GZLM é baseado no Wald Chi-Square, correto? Eu li que o Wald Chi-Square é usado quando você usa parâmetros da amostra (como no GZLM).
Behacad
Com base nesta resposta, adicionei uma pergunta à postagem original!
Behacad
Ok, eu adicionei um parágrafo correspondente à minha resposta em resposta.
onestop 15/02
5

Eu gostaria de incluir minha experiência nesta discussão. Vi que um modelo linear generalizado (especificando uma função de vínculo de identidade e uma distribuição familiar normal) é idêntico a um modelo linear geral somente quando você usa a estimativa de máxima verossimilhança como método de parâmetro de escala. Caso contrário, se "valor fixo = 1" for escolhido como método de parâmetro de escala, você obtém valores p muito diferentes. Minha experiência sugere que geralmente "valor fixo = 1" deve ser evitado. Estou curioso para saber se alguém sabe quando é apropriado escolher valor fixo = 1 como método de parâmetro de escala. Desde já, obrigado. Marca


fonte
3
Normalmente, utiliza-se uma escala fixa apenas com modelos como regressão logística ou regressão de Poisson, em que a resposta é uma variável de contagem ou indicador / frequência. Nesse caso, não há análogo ao parâmetro de escala na regressão normal.
Hong Ooi