Conforme explicado neste folheto do curso (página 1) , um modelo linear pode ser escrito no formato:
onde é a variável de resposta e é o variável de motivos.
Freqüentemente, com o objetivo de atender às premissas de teste, é possível transformar a variável de resposta. Por exemplo, aplicamos a função log em cada . Transformar uma variável de resposta NÃO equivale a fazer um GLM.
Um GLM pode ser escrito da seguinte forma (a partir do folheto do curso novamente (página 3) )
onde é apenas outro símbolo para como eu entendo na página 2 do folheto do curso. é chamada de função de link.
Eu realmente não entendo a diferença entre um GLM e LM com variável transformada dos slides do curso. Você pode me ajudar com isso?
Respostas:
Transformar a resposta antes de fazer uma regressão linear está fazendo o seguinte:
onde é uma função dada, e assumimos queg tem uma determinada distribuição (geralmente normal).g(Y)
Um modelo linear generalizado está fazendo isso:
fonte
Não tenho certeza se isso constituirá uma resposta completa para você, mas pode ajudar a libertar o impasse conceitual.
Parece haver dois conceitos errados em sua conta:
Lembre-se de que a regressão de mínimos quadrados ordinários (OLS - 'linear') é um caso especial do modelo linear generalizado. Portanto, quando você diz que "[transformar] uma variável de resposta NÃO equivale a executar um GLM", isso está incorreto. Ajustar um modelo linear ou transformar a variável de resposta e, em seguida, ajustar um modelo linear constituem "fazer um GLM".
Na formulação padrão de GLMs, o que você chama de "você "(geralmente representado por μ , mas isso é apenas uma questão de preferência) é a média da distribuição da resposta condicional em um local específico no espaço covariável (por exemplo, X ) Assim, quando você diz "ondevocê é apenas outro símbolo para y ", isso também está incorreto. Na formulação do OLS, Y é uma variável aleatória e / ou yEu é um valor realizado de Y para observação / unidade de estudo Eu . Isso é,y (mais genericamente) representa dados , não um parâmetro .
(Não pretendo estar enganando os erros, apenas suspeito que isso possa estar causando sua confusão.)
Há também outro aspecto do modelo linear generalizado que não vejo você mencionando. Ou seja, especificamos uma distribuição de resposta. No caso da regressão OLS, a distribuição da resposta é gaussiana (normal) e a função de link é a função de identidade. No caso de, digamos, regressão logística (que pode ser o que as pessoas pensam quando pensam nos GLMs), a distribuição da resposta é o Bernoulli (/ binomial) e a função de link é o logit. Ao usar transformações para garantir que as suposições do OLS sejam atendidas, geralmente tentamos tornar a distribuição de resposta condicional aceitável normal. No entanto, nenhuma transformação tornará a distribuição de Bernoulli aceitável normal.
fonte