Distribuição de erros para regressão linear e logística

9

Com dados contínuos, uma regressão linear Y=β1 1+β2X2+você assume que o termo de erro está distribuído N (0, σ2 )

1) Assumimos que Var (Y | x) é igualmente ~ N (0, σ2 )?

2) Qual é essa distribuição de erro na regressão logística? Quando os dados estão no formato de 1 registro por caso, onde o "Y" é 1 ou 0, é o termo de erro distribuído Bernoulli (ou seja, a variação é p (1-p))) e quando os dados estão no formato # sucessos de #de tentativas, é assumido binomial (ou seja, a variação é np (1-p)), onde p é a probabilidade de Y ser 1?

B_Miner
fonte
2
Você não está sendo preciso. A suposição do modelo é que os termos do erro são independentes e distribuídos de forma idêntica com uma distribuição que é N (0, σ 2 ) e não está relacionada ao COVARIATE. O que é Var (Y | x)? Você está condicionando em X 2 = x? O modelo assume que a covariável é aleatória de alguma forma ou então assumimos que a covariável é fixa de acordo com uma matriz de design? Penso que é o último e, por conseguinte, Var (Y | X 2 = X) é implicada pelas hipóteses e não necessita de ser assumida. 222
Michael R. Chernick
@MichaelChernick Por que o modelo assume que o é fixo? Certamente pode ser o caso de ser corrigido, mas também pode ser aleatório. Nada na pergunta implica um para mim. X2
Peter Flom - Restabelece Monica
@PeterFlom Li na pergunta que a regressão linear com essa distribuição de erro assumida significava que o OLS exige que o X 2 seja corrigido e conhecido. Se alguém tiver regressão de Deming (ou seja, erro na regressão de variáveis), isso será especificado na pergunta. Observar a resposta que Stat deu indica que ele também interpôs a pergunta dessa maneira. 2
Michael R. Chernick 22/09/12
@ Michael

Respostas:

10

1) Se tiver distribuição normal, ou seja, N ( 0 , σ 2 ), então V a r ( Y | X 2 ) = V a r ( β 1 + β 2 X 2 ) + V a r ( u ) = 0 + σ 2 = σ 2 , uma vez que β 1 + β 2 X 2uN(0,σ2)Var(Y|X2)=Var(β1+β2X2)+Var(u)=0+σ2=σ2β1 1+β2X2 não é uma variável aleatória.

2) Na regressão logística, assume-se que os erros sigam uma distribuição binomial como mencionado aqui . É melhor escrevê-lo como , uma vez que essas probabilidades dependem de X j , conforme referenciadoaquiou emRegressão logística aplicada.Vumar(Yj|Xj)=mj.E[Yj|Xj].(1 1-E[Yj|Xj])=mjπ(Xj).(1 1-π(Xj))Xj

Estado
fonte
Stat, Assim, é correto dizer que a variância para o om erro individual, , é p i (1- p i ), que é equivalente ao que você tem mostrado assumindo que existem mais de 1 observação nos dados com o mesmo padrão covariável (ou seja, m j = 1 para todos os j)? eipipimj
B_Miner 22/09/12
2
Sim isto está correcto. Se com P ( Y i = 1 ) = 1 - P ( Y i = 0 ) = p i , então e i = 1 - p i com probabilidade p i ou e i = - p i com probabilidade 1 - pYi=pi+eiP(Yi=1)=1P(Yi=0)=piei=1pipiei=pi . Portanto, e1pi tem uma distribuição com médiaei e variância igual a p i ( 1 - p i ) . 0pi(1pi)
Stat
Um ponto adicional aqui, Stat, temos que assumir que os X são fixos, não aleatórios para Var (Y | X) = Var (e) para ambos os casos de regressão linear e logística corretos?
B_Miner
NB com probabilidade p i ou de e i = - p i com probabilidade 1 - p i é não uma distribuição binomial para e i . ei=1pipiei=pEu1-pEueEu
Scortchi - Restabelece Monica
B_Miner: significa a variação de Y condicional na variável aleatória X que assume um valor observado x . Portanto, é irrelevante se seus preditores são corrigidos por um experimento ou observados em uma amostra: o que o @ Stat está dizendo é que eles não estão mais sendo considerados como variáveis ​​aleatórias para fins de regressão. Var(Y|X)=Var(Y|X=x)YXx
Scortchi - Restabelece Monica