Regressão linear, expectativas condicionais e valores esperados

11

Ok, então, um pouco nebuloso em algumas coisas, qualquer ajuda seria muito apreciada. Entendo que o modelo de regressão linear é previsto através de uma expectativa condicional

E(Y|X)=b+Xb+e
  1. Supomos que e são variáveis ​​aleatórias com alguma distribuição de probabilidade desconhecida? entendi que apenas os resíduos e os coeficientes beta estimados eram variáveis ​​aleatórias. Nesse caso, como exemplo, se obesidade e idade, se considerarmos a expectativa condicional , qual é o valor esperado de ser obeso se o indivíduo tiver na amostra? basta tomar a média (média aritmética) de y para as observações em que ? ainda assim, o valor esperado não implica que devemos multiplicar isso pela probabilidade de ocorrência? mas como, nesse sentido, encontramos a probabilidade doY Y = X = E ( Y | X = 35 )XYY=X=E(Y|X=35)X = 35 X35X=35Xvariável de valor que ocorre se representar algo como idade?
  2. Se representasse algo como a taxa de câmbio, isso seria classificado como aleatório? como diabos você encontraria o valor esperado disso sem saber a probabilidade? ou o valor esperado seria igual à média no limite.X
  3. Se não assumimos que as variáveis ​​dependentes são elas próprias variáveis ​​aleatórias, uma vez que não invertemos a probabilidade, o que supomos que sejam? apenas valores fixos ou algo assim? mas, se esse for o caso, como podemos condicionar uma variável não aleatória para começar? o que assumimos sobre a distribuição de variáveis ​​independentes?

Desculpe se algo não faz sentido ou é óbvio para alguém.

William Carulli
fonte
11
O coeficiente de regressão é uma constante desconhecida, não uma variável aleatória (pelo menos em um mundo frequentista). β
Richard Hardy
o que você quer dizer com expectativas condicionais? E (Y | X) significa simplesmente Y dado X, ou seja, valor esperado de Y em X. Diga, y = 5 + x, então você E (Y | X = 5) é 10. Eu não entendi seu ponto com expectativa condicional
Zamir Akimbekov
@RichardHardy, entendi que, como B é a média da distribuição amostral dos beta's, é uma variável aleatória caracterizada por uma distribuição normal. você está se referindo ao modelo populacional?
William Carulli
Sim, modelo populacional.
Richard Hardy
11
@WilliamCarulli Richard está se referindo à diferença entre um parâmetro populacional e um parâmetro estimado. O parâmetro estimado é de fato uma variável aleatória, mas o parâmetro de população verdadeira (desconhecido) é um valor fixo.
Matthew Drury

Respostas:

8

No modelo de probabilidade subjacente à regressão linear, X e Y são variáveis ​​aleatórias.

Nesse caso, como exemplo, se Y = obesidade e X = idade, se considerarmos a expectativa condicional E (Y | X = 35), qual é o valor esperado de ser obeso se o indivíduo tiver 35 anos na amostra? basta tomar a média (média aritmética) de y para as observações em que X = 35?

Está certo. Em geral, você não pode esperar que tenha dados suficientes em cada valor específico de X, ou pode ser impossível fazê-lo se X puder obter um intervalo contínuo de valores. Mas conceitualmente, isso está correto.

ainda assim, o valor esperado não implica que devemos multiplicar isso pela probabilidade de ocorrência?

Essa é a diferença entre a expectativa incondicional e a expectativa condicional . A relação entre eles éE [ Y X = x ]E[Y]E[YX=x]

E[Y]=xE[YX=x]Pr[X=x]

que é a lei da expectativa total.

mas como, nesse sentido, encontramos a probabilidade da variável de valor X ocorrer se ela representa algo como a idade?

Geralmente você não faz regressão linear. Como estamos tentando determinar , não precisamos conhecer .P r [ X = x ]E[YX]Pr[X=x]

Se não assumimos que as variáveis ​​independentes são elas próprias variáveis ​​aleatórias, uma vez que não invertemos a probabilidade, o que supomos que sejam? apenas valores fixos ou algo assim?

Nós não assumimos que Y é uma variável aleatória. Uma maneira de pensar em regressão linear é como um modelo de probabilidade paraY

YXβ+N(0,σ)

O que diz que, uma vez que você conhece o valor de X, a variação aleatória em Y se limita à soma .N(0,σ)

Matthew Drury
fonte
Muito obrigado pelo seu comentário, me ajudou imensamente. Felicidades.
William Carulli
@WilliamCarulli De nada! Sinta-se à vontade para fazer qualquer pergunta de acompanhamento e farei o possível para responder. Se realmente esclareci todos os seus problemas, você também pode aceitá-lo.
Matthew Drury
3
Este é um ótimo post. No entanto, acho que qualquer resposta que não reconheça que (a) pode ser fixa ou (b) pode ser uma variável aleatória (com suposições particulares de independência) não está realmente abordando as preocupações expressas na pergunta. X
whuber
@MatthewDrury, Só para esclarecer, se a minha variável dependente é dizer a taxa de câmbio, e minha dependente é a taxa de juros doméstica, então
William Carulli
@ MatthewDrury @ MatthewDrury, Só para esclarecer, se minha variável dependente é a taxa de câmbio, e minha dependente é a taxa de juros doméstica, então E (E (taxa de câmbio | taxa de juros)) = E (taxa de câmbio) = média da amostra da taxa de câmbio? Eu acho que o que está me confundindo é que sempre assumo que as expectativas são calculadas com base em probabilidades, não vejo o motivo para denotar regressão linear como uma expectativa condicional ao resolvê-la via álgebra matricial parece muito diferente do que assumir a expectativa geral.
William Carulli
3

Haverá muitas respostas para essa pergunta, mas ainda quero adicionar uma, já que você fez alguns pontos interessantes. Por simplicidade, considero apenas o modelo linear simples.

   It is my understanding that the linear regression model
   is predicted via a conditional expectation E(Y|X)=b+Xb+e

A equação fundamental de uma simples análise de regressão linear é: Esta equação é significado que o valor médio de é linear nos valores de . Pode-se notar também que o valor esperado também é linear nos parâmetros e , razão pela qual o modelo é chamado linear. Essa equação fundamental pode ser reescrita como: que é uma variável aleatória com zero médio:

E(Y|X)=β0+β1X,
YXβ0β1
Y=β0+β1X+ϵ,
ϵE(ϵ)=0
Do we assume that both X and Y are Random variables with some unknown 
probability distribution? ... If we don't assume the independent variables 
are themselves random 

A variável independente pode ser aleatória ou fixa. A variável dependente é SEMPRE aleatória.XY

Normalmente, assume-se que são números fixos. Isso ocorre porque a análise de regressão foi desenvolvida e é amplamente aplicada no contexto de experimentos projetados, onde os valores de são previamente fixados.{X1,...,Xn}X

As fórmulas para as estimativas de mínimos quadrados de e são as mesmas, mesmo que os sejam assumidos aleatoriamente, mas a distribuição dessas estimativas geralmente não será a mesma em comparação com a situação com 's fixos .β0β1XX

if we take the conditional expectation E(Y|X=35) ... would we just take 
the average(arithmetic mean) of y for those observations where X=35?

No modelo linear simples, você pode criar uma estimativa de base nas estimativas de e , a saber: O estimador médio quadrático condicional tem expressão igual à que você descreveu se o modelo tratar os pesos diferentes como níveis de um único fator. Esses modelos também são conhecidos como ANOVA unidirecional, que é um caso particular de modelo linear (não simples).E(Y|X=x) β 0 β 1 φ (x)= β 0+ p 1xφ^(x)E(Y|X=x)β^0β^1

φ^(x)=β^0+β^1x

Mur1lo
fonte
11
Algumas das observações neste post são incomuns e podem ser mal compreendidas. Primeiro, o modelo é chamado de "linear" porque é linear nos parâmetros , não em . Em segundo lugar, as estimativas e são variáveis aleatórias independentemente do que é assumido sobre . Terceiro, seu tratamento da expectativa condicional parece confundir as observações com a verdadeira distribuição condicional. Por fim, a referência a "sem valores repetidos" é confusa porque é irrelevante. β 0 β 1 XXβ^0β^1X
whuber
11
@whuber "Primeiro, o modelo é chamado de" linear "porque é linear nos parâmetros" Eu estava explicando o significado da equação, não o significado de "linear" no "modelo linear". "as estimativas β̂ 0 e β̂ 1 são variáveis ​​aleatórias, independentemente do que se supõe sobre X", com certeza, mas a distribuição dessas variáveis ​​aleatórias muda de acordo com a maneira como você trata X.
Mur1lo 24/16/16
11
@whuber Eu concordo totalmente com seus últimos pontos. Vou editar minha resposta para ficar mais clara em todos os problemas que você apontou. Obrigado pelo feedback.
Mur1lo