OLS em termos de média e tamanho da amostra

8

Dado um modelo:

y=β0+β1f+u

Onde é fictício se fêmea e caso contrário, y é a altura em cm. O tamanho da amostra é no total. Além disso e . Calcule as estimativas dos parâmetros.f=10nfemale=nmale=100200y¯male=175y¯female=165

Minha tentativa:

Usando a fórmula bem conhecida:

β^=(XX)1Xy
recebo:
[200100100100]1[170200165200]

Primeiro, os elementos em (XX)1 , uma vez que X é apenas um monte de pessoas, há 100 mulheres na amostra e 200 homens e mulheres no total. Para Xy , o primeiro elemento é a "grande média" de 170 e o segundo é a média da amostra apenas da altura para mulheres. Ambos são redimensionados em 200, pois eu não "reduzi a escala" (XX)1 .

Está correto? Eu pergunto, porque a solução (ao multiplicar) resulta em alguns (muito) números ímpares.

Repmat
fonte

Respostas:

7

A abordagem está correta, mas há um pequeno erro numérico: existem apenas mulheres, não . As alturas médias de machos e fêmeas podem ser convertidas em somas via200100200

Sum of male heights=100×175

e

Sum of female heights=100×165.

Portanto, a soma de todas as alturas é

Sum of all heights=100×175+100×165=200×170,

conforme indicado na pergunta. Consequentemente, as equações normais são

(200100100100)(β^0β^1)=(200170100165)

( não no lado direito), com solução165200

(β^0,β^1)=(175,10).
whuber
fonte
O que um erro bobo ...
Repmat
1
Eu não chamaria isso de bobo. É uma coisa natural a se fazer. Eu tive que encarar a pergunta por alguns minutos antes que o problema se tornasse aparente ....
whuber
1

Estou bastante confuso. O que quer dizer? Estes são resíduos? Se sim, entãou

XX =[200100100100]

Desde a

X=yβ=[y1β1y2β1...ynfβ1ynf+1β1ynf+2β1...ynnf+nmβ1y1β2y2β2...ynfβ2ynf+1β2ynf+2β2...ynnf+nmβ2]T

=

[11...111...100...011...1]T

Alguns pensamentos:

Dada a sua equação IMHO deve ser 175 e = -10. Então, para a parte masculina e feminina, você obtém:β1β2

fm=175(+)10×0+u=175+u

ff=175(+)10×1+u=165+u

Desde que você pode usar

β=(XX)1XTy

para resolver usando o Pseudoinverso Moore-Penrose .β

((XX)1XT)+β=((XX)1XT)+[17510]=y

Agora contém:y

y[165f1165f2...165f100175m1175m2...175m100]T

Espero que ajude!

nali
fonte
5
Enquanto os estatísticos geralmente usam sob o nome de Erro para a parte não explicada do modelo, os economistas freqüentemente falam de Erro, choques (transitórios) ou Perturbação. É apenas uma notação habitual. uϵu
mugen
1
@ali, você pode talvez adicionar um pouco a isso? Dados seus números, a solução do sistema não está fazendo sentido. E sim, u é o (s) resíduo (s).
Repmat
@ Repmat: Eu atualizei alguns pensamentos que eu tinha inicialmente. Espero que ajude.
Nali
@ Repmat: Talvez você me entendeu mal. X '* y não é [170 82,5] ^ T
nali