Por que a regressão linear e o Modelo Generalizado têm suposições inconsistentes?
- Na regressão linear, assumimos que vem residual de Gauss
- Em outra regressão (regressão logística, regressão venenosa), assumimos que a resposta vem de alguma distribuição (binomial, poissão etc.).
Por que, às vezes, pressupõe tempo residual e outro tempo na resposta? É porque queremos derivar propriedades diferentes?
Edição: Eu acho que mark999 mostra duas formas são iguais. No entanto, tenho mais uma dúvida sobre o iid:
Minha outra pergunta, existe uma suposição sobre regressão logística? mostra que o modelo linear generalizado não possui suposição iid (independente, mas não idêntica)
É verdade que, para regressão linear, se colocarmos suposição no residual , teremos iid, mas se colocarmos suposição na resposta , teremos amostras independentes, mas não idênticas (Gaussiana diferente com diferente )?
regression
generalized-linear-model
assumptions
linear
Haitao Du
fonte
fonte
Respostas:
A regressão linear simples com erros gaussianos é um atributo muito bom que não generaliza para modelos lineares generalizados.
Nos modelos lineares generalizados, a resposta segue uma determinada distribuição, dada a média . A regressão linear segue esse padrão; se tiver-mos
comϵEu∼ N( 0 , σ)
então nós também temos
Ok, então a resposta segue a distribuição fornecida para modelos lineares generalizados, mas para regressão linear também temos que os resíduos sigam uma distribuição gaussiana. Por que é enfatizado que os resíduos são normais quando essa não é a regra generalizada? Bem, porque é a regra muito mais útil. O bom de pensar sobre a normalidade dos resíduos é que isso é muito mais fácil de examinar. Se subtrairmos as médias estimadas, todos os resíduos deverão ter aproximadamente a mesma variação e aproximadamente a mesma média (0) e serão distribuídos aproximadamente normalmente (nota: eu digo "aproximadamente" porque se não tivermos estimativas perfeitas da parâmetros de regressão, o que obviamente não sabemos, a variação das estimativas deϵEu terá diferentes variações com base nos intervalos de . Mas espero que haja precisão suficiente nas estimativas de que isso é ignorável!).x
Por outro lado, olhando para o desajustado 's, não podemos realmente dizer se eles são normais, se todos eles têm diferentes meios. Por exemplo, considere o seguinte modelo:yEu
com e x i ~ Bernoulli ( p = 0,5 )ϵEu∼ N( 0 , 0,2 ) xEu∼ Bernoulli ( p = 0,5 )
Aqui está um
R
código para ilustrar.fonte
O modelo usual de regressão linear múltipla com erros normais é um modelo linear generalizado com resposta normal e link de identidade.
fonte