Ok, então, um pouco nebuloso em algumas coisas, qualquer ajuda seria muito apreciada. Entendo que o modelo de regressão linear é previsto através de uma expectativa condicional
- Supomos que e são variáveis aleatórias com alguma distribuição de probabilidade desconhecida? entendi que apenas os resíduos e os coeficientes beta estimados eram variáveis aleatórias. Nesse caso, como exemplo, se obesidade e idade, se considerarmos a expectativa condicional , qual é o valor esperado de ser obeso se o indivíduo tiver na amostra? basta tomar a média (média aritmética) de y para as observações em que ? ainda assim, o valor esperado não implica que devemos multiplicar isso pela probabilidade de ocorrência? mas como, nesse sentido, encontramos a probabilidade doY Y = X = E ( Y | X = 35 )X = 35 Xvariável de valor que ocorre se representar algo como idade?
- Se representasse algo como a taxa de câmbio, isso seria classificado como aleatório? como diabos você encontraria o valor esperado disso sem saber a probabilidade? ou o valor esperado seria igual à média no limite.
- Se não assumimos que as variáveis dependentes são elas próprias variáveis aleatórias, uma vez que não invertemos a probabilidade, o que supomos que sejam? apenas valores fixos ou algo assim? mas, se esse for o caso, como podemos condicionar uma variável não aleatória para começar? o que assumimos sobre a distribuição de variáveis independentes?
Desculpe se algo não faz sentido ou é óbvio para alguém.
regression
William Carulli
fonte
fonte
Respostas:
No modelo de probabilidade subjacente à regressão linear, X e Y são variáveis aleatórias.
Está certo. Em geral, você não pode esperar que tenha dados suficientes em cada valor específico de X, ou pode ser impossível fazê-lo se X puder obter um intervalo contínuo de valores. Mas conceitualmente, isso está correto.
Essa é a diferença entre a expectativa incondicional e a expectativa condicional . A relação entre eles éE [ Y ∣ X = x ]E[Y] E[Y∣X=x]
que é a lei da expectativa total.
Geralmente você não faz regressão linear. Como estamos tentando determinar , não precisamos conhecer .P r [ X = x ]E[Y∣X] Pr[X=x]
Nós não assumimos que Y é uma variável aleatória. Uma maneira de pensar em regressão linear é como um modelo de probabilidade paraY
O que diz que, uma vez que você conhece o valor de X, a variação aleatória em Y se limita à soma .N(0,σ)
fonte
Haverá muitas respostas para essa pergunta, mas ainda quero adicionar uma, já que você fez alguns pontos interessantes. Por simplicidade, considero apenas o modelo linear simples.
A equação fundamental de uma simples análise de regressão linear é: Esta equação é significado que o valor médio de é linear nos valores de . Pode-se notar também que o valor esperado também é linear nos parâmetros e , razão pela qual o modelo é chamado linear. Essa equação fundamental pode ser reescrita como: que é uma variável aleatória com zero médio:
A variável independente pode ser aleatória ou fixa. A variável dependente é SEMPRE aleatória.X Y
Normalmente, assume-se que são números fixos. Isso ocorre porque a análise de regressão foi desenvolvida e é amplamente aplicada no contexto de experimentos projetados, onde os valores de são previamente fixados.{X1,...,Xn} X
As fórmulas para as estimativas de mínimos quadrados de e são as mesmas, mesmo que os sejam assumidos aleatoriamente, mas a distribuição dessas estimativas geralmente não será a mesma em comparação com a situação com 's fixos .β0 β1 X X
No modelo linear simples, você pode criar uma estimativa de base nas estimativas de e , a saber: O estimador médio quadrático condicional tem expressão igual à que você descreveu se o modelo tratar os pesos diferentes como níveis de um único fator. Esses modelos também são conhecidos como ANOVA unidirecional, que é um caso particular de modelo linear (não simples).E(Y|X=x) β 0 β 1 φ (x)= β 0+ p 1xφ^(x) E(Y|X=x) β^0 β^1
fonte