Solução analítica para estimativas de coeficientes de regressão linear

9

Estou tentando entender a notação matricial e trabalhando com vetores e matrizes.

No momento, eu gostaria de entender como o vetor de estimativas de coeficiente na regressão múltipla é calculado.β^

A equação básica parece ser

ddβ(yXβ)(yXβ)=0.

Agora, como eu resolveria um vetor β aqui?

Edit : Espere, eu estou preso. Estou aqui agora e não sei como continuar:

ddβ((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))

ddβi=1n(yi(1xi1xi2xip)(β0β1βp))2

Com para todos os que sou o intercepto:ixi0=1i

ddβi=1n(yik=0pxikβk)2

Você pode me apontar na direção certa?

Alexander Engelhardt
fonte
@GaBorgulya, obrigado pela edição, não sabia smallmatrix, por isso não tentou editar, pois a solução usual de quebrar a fórmula em várias linhas não teria funcionado aqui.
precisa saber é o seguinte

Respostas:

12

Nós temos

ddβ(yXβ)(yXβ)=2X(yXβ) .

Isso pode ser mostrado escrevendo a equação explicitamente com os componentes. Por exemplo, escreva vez de . Então pegue derivadas em relação a , , ..., e empilhe tudo para obter a resposta. Para uma ilustração rápida e fácil, você pode começar com . β β 1 β 2 β p p = 2(β1,,βp)ββ1β2βpp=2

Com a experiência, desenvolvemos regras gerais, algumas das quais são dadas, por exemplo, nesse documento .

Editar para orientar a parte adicionada da pergunta

Com , temosp=2

(yXβ)(yXβ)=(y1x11β1x12β2)2+(y2x21β1x22β2)2

A derivada em relação a éβ1

2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)

Da mesma forma, a derivada em relação a éβ2

-2x12(y1 1-x11β1 1-x12β2)-2x22(y2-x21β1 1-x22β2)

Portanto, o derivado em relação a éβ=(β1 1,β2)

(-2x11(y1 1-x11β1 1-x12β2)-2x21(y2-x21β1 1-x22β2)-2x12(y1 1-x11β1 1-x12β2)-2x22(y2-x21β1 1-x22β2))

Agora, observe que você pode reescrever a última expressão como

-2(x11x21x12x22)(y1 1-x11β1 1-x12β2y2-x21β1 1-x22β2)=-2X(y-Xβ)

Obviamente, tudo é feito da mesma maneira para uma maior .p

ocram
fonte
Incrível, eu estava procurando exatamente esse tipo de pdf. Muito obrigado!
Alexander Engelhardt
Oh, eu pensei que poderia fazer isso agora, mas não posso. Você pode me dizer se meus passos estão corretos ou se devo tomar "outra maneira" de resolver isso?
Alexander Engelhardt
@Alexx Hardt: Minha primeira equação na edição é igual à sua última equação no caso particular em que p = 2. Portanto, você pode imitar meus cálculos para os componentes 3, 4, ..., p.
Ocram
Mais uma vez obrigado :) Acho que vou usar as três sugestões. Estou construindo um .pdf que explica e resume a álgebra básica da matriz de estatísticas, porque de alguma maneira eu nunca quis aprender quando aprendi nas aulas. Resolver isso de três maneiras diferentes me ajudará a entender melhor, espero.
21311 Alexander Engelhardt
Ah, mas isso é para p = 2 en = 2, certo? Vou escrever com n = 3, eu acho.
Alexander Engelhardt
13

Você também pode usar fórmulas no livro de receitas Matrix . Nós temos

(y-Xβ)(y-Xβ)=yy-βXy-yXβ+βXXβ

Agora pegue derivadas de cada termo. Você pode notar que . A derivada do termo em relação a é zero. O termo restantey y ββXy=yXβyyβ

βXXβ-2yXβ

é da forma de função

f(x)=xUMAx+bx,

na fórmula (88) no livro na página 11, com , e . O derivado é dado na fórmula (89):A = X X b = - 2 X yx=βUMA=XXb=-2Xy

fx=(UMA+UMA)x+b

tão

β(y-Xβ)(y-Xβ)=(XX+(XX))β-2Xy

Agora, já que , obtemos a solução desejada:(XX)=XX

XXβ=Xy
mpiktas
fonte
+1 mpiktas: sua solução é mais engenhosa que a minha e acho que deve ser usada em situações práticas mais complexas.
Ocram 21/04
11
@ram, obrigado. Eu não chamaria de engenhoso, é uma aplicação padrão de fórmulas existentes. Você só precisa saber as fórmulas :)
mpiktas
8

Aqui está uma técnica para minimizar a soma dos quadrados na regressão que realmente tem aplicações para configurações mais gerais e que eu acho útil.

Vamos tentar evitar completamente o cálculo da matriz vetorial.

Suponha que estamos interessados ​​em minimizar onde , e . Assumimos por simplicidade que e .YR n XR n × p p

E=(y-Xβ)T(y-Xβ)=__y-Xβ__22,
yRnXRn×p pn r um n k ( X )=pβRppnrumank(X)=p

Para qualquer , obtemos E=y-X β +X β -Xβ 2 2 =y-X β 2 2 +X(β - β ) 2 2β^Rp

E=__y-Xβ^+Xβ^-Xβ__22=__y-Xβ^__22+__X(β-β^)__22-2(β-β^)TXT(y-Xβ^).

Se pudermos escolher (encontrar!) Um vetor modo que o último termo do lado direito seja zero para cada , então estaríamos prontos, pois isso implicaria que . βminβEy-X β 2 2β^ βminβE__y-Xβ^__22

Mas, para todos se e somente se e esta última equação é verdadeira se e somente se . Portanto, é minimizado usando .β X T ( Y - X β ) = 0 X t X β = X T Y E β(β-β^)TXT(y-Xβ^)=0 0βXT(y-Xβ^)=0 0XTXβ^=XTyEβ^=(XTX)-1 1XTy


Embora isso possa parecer um "truque" para evitar o cálculo, ele realmente tem uma aplicação mais ampla e há alguma geometria interessante em jogo.

Um exemplo em que essa técnica torna uma derivação muito mais simples do que qualquer abordagem de cálculo de vetor de matriz é quando generalizamos para o caso da matriz. Vamos , e . Suponha que desejamos minimizar em toda a matriz de parâmetros . Aqui é uma matriz de covariância. XR n × q BR q × p E = t r ( ( Y - X B ) Σ -YRn×pXRn×qBRq×p B Σ

E=tr((Y-XB)Σ-1 1(Y-XB)T)
BΣ

Uma abordagem totalmente análoga à anterior acima estabelece rapidamente que o mínimo de é atingido usando Ou seja, em um cenário de regressão em que a resposta é um vetor com covariância e as observações são independentes, a estimativa do OLS é obtida fazendo regressões lineares separadas nos componentes da resposta.EΣ p

B^=(XTX)-1 1XTY.
Σp
cardeal
fonte
Felizmente, as regras do fórum permitem adicionar +1 a todas as respostas. Obrigado pela educação, pessoal!
Dwin
@DWin, você quis postar isso nos comentários da pergunta?
cardinal
Suponho que poderia ter. Eu segui a pergunta seqüencialmente e, em seguida, todas as respostas (após o processamento do MathML pararam de brincar) e achei todas as respostas informativas. Acabei de deixar meu comentário no seu, porque foi onde parei de ler.
Dwin
11
@ DWin, sim, a renderização é um pouco descolada. Eu pensei que você poderia ter pretendido o comentário para outro post, já que este não tem votos (para cima ou para baixo) e, portanto, o comentário parecia estar fora de lugar. Felicidades.
cardinal
11
@ cardinal +1, truque útil. Essa questão acabou sendo uma boa referência.
precisa saber é o seguinte
6

Uma maneira de ajudá-lo a entender é não usar álgebra matricial, diferenciar cada aspecto de cada componente e depois "armazenar" os resultados em um vetor de coluna. Então nós temos:

βkEu=1 1N(YEu-j=1 1pXEujβj)2=0 0

Agora você tem dessas equações, uma para cada beta. Esta é uma aplicação simples da regra da cadeia:p

Eu=1 1N2(YEu-j=1 1pXEujβj)1 1(βk[YEu-j=1 1pXEujβj])=0 0
-2Eu=1 1NXEuk(YEu-j=1 1pXEujβj)=0 0

Agora, podemos reescrever a soma dentro do colchete como Então você obtém:j=1 1pXEujβj=xEuTβ

Eu=1 1NXEukYEu-Eu=1 1NXEukxEuTβ=0 0

Agora temos dessas equações e as "empilharemos" em um vetor de coluna. Observe como é o único termo que depende de , para que possamos empilhá-lo no vetor e obtemos:pXEukkxEu

Eu=1 1NxEuYEu=Eu=1 1NxEuxEuTβ

Agora podemos pegar a versão beta fora da soma (mas devemos permanecer no RHS da soma) e, em seguida, fazer a inversão:

(Eu=1 1NxEuxEuT)-1 1Eu=1 1NxEuYEu=β
probabilityislogic
fonte