Estou tentando entender a notação matricial e trabalhando com vetores e matrizes.
No momento, eu gostaria de entender como o vetor de estimativas de coeficiente na regressão múltipla é calculado.
A equação básica parece ser
Agora, como eu resolveria um vetor aqui?
Edit : Espere, eu estou preso. Estou aqui agora e não sei como continuar:
Com para todos os que sou o intercepto:i
Você pode me apontar na direção certa?
regression
Alexander Engelhardt
fonte
fonte
smallmatrix
, por isso não tentou editar, pois a solução usual de quebrar a fórmula em várias linhas não teria funcionado aqui.Respostas:
Nós temos
Isso pode ser mostrado escrevendo a equação explicitamente com os componentes. Por exemplo, escreva vez de . Então pegue derivadas em relação a , , ..., e empilhe tudo para obter a resposta. Para uma ilustração rápida e fácil, você pode começar com . β β 1 β 2 β p p = 2( β1 1, ... , βp)′ β β1 1 β2 βp p = 2
Com a experiência, desenvolvemos regras gerais, algumas das quais são dadas, por exemplo, nesse documento .
Editar para orientar a parte adicionada da pergunta
Com , temosp = 2
A derivada em relação a éβ1 1
Da mesma forma, a derivada em relação a éβ2
Portanto, o derivado em relação a éβ= ( β1 1, β2)′
Agora, observe que você pode reescrever a última expressão como
Obviamente, tudo é feito da mesma maneira para uma maior .p
fonte
Você também pode usar fórmulas no livro de receitas Matrix . Nós temos
Agora pegue derivadas de cada termo. Você pode notar que . A derivada do termo em relação a é zero. O termo restantey ′ y ββ′X′y= y′Xβ y′y β
é da forma de função
na fórmula (88) no livro na página 11, com , e . O derivado é dado na fórmula (89):A = X ′ X b = - 2 X ′ yx = β A = X′X b = - 2 X′y
tão
Agora, já que , obtemos a solução desejada:(X′X)′=X′X
fonte
Aqui está uma técnica para minimizar a soma dos quadrados na regressão que realmente tem aplicações para configurações mais gerais e que eu acho útil.
Vamos tentar evitar completamente o cálculo da matriz vetorial.
Suponha que estamos interessados em minimizar onde , e . Assumimos por simplicidade que e .Y ∈ R n X ∈ R n × p p ∈
Para qualquer , obtemos E=‖y-X β +X β -Xβ‖ 2 2 =‖y-X β ‖ 2 2 +‖X(β - β )‖ 2 2β^∈ Rp
Se pudermos escolher (encontrar!) Um vetor modo que o último termo do lado direito seja zero para cada , então estaríamos prontos, pois isso implicaria que . βminβE≥‖y-X β ‖ 2 2β^ β minβE≥ ∥ y - X β^∥22
Mas, para todos se e somente se e esta última equação é verdadeira se e somente se . Portanto, é minimizado usando .β X T ( Y - X β ) = 0 X t X β = X T Y E β( β- β^)TXT( y - X β^) = 0 β XT( y - X β^) = 0 XTX β^= XTy E β^= ( XTX )- 1XTy
Embora isso possa parecer um "truque" para evitar o cálculo, ele realmente tem uma aplicação mais ampla e há alguma geometria interessante em jogo.
Um exemplo em que essa técnica torna uma derivação muito mais simples do que qualquer abordagem de cálculo de vetor de matriz é quando generalizamos para o caso da matriz. Vamos , e . Suponha que desejamos minimizar em toda a matriz de parâmetros . Aqui é uma matriz de covariância. X ∈ R n × q B ∈ R q × p E = t r ( ( Y - X B ) Σ -Y ∈ Rn × p X ∈ Rn × q B ∈ Rq× p B Σ
Uma abordagem totalmente análoga à anterior acima estabelece rapidamente que o mínimo de é atingido usando Ou seja, em um cenário de regressão em que a resposta é um vetor com covariância e as observações são independentes, a estimativa do OLS é obtida fazendo regressões lineares separadas nos componentes da resposta.E Σ p
fonte
Uma maneira de ajudá-lo a entender é não usar álgebra matricial, diferenciar cada aspecto de cada componente e depois "armazenar" os resultados em um vetor de coluna. Então nós temos:
Agora você tem dessas equações, uma para cada beta. Esta é uma aplicação simples da regra da cadeia:p
Agora, podemos reescrever a soma dentro do colchete como Então você obtém:∑pj = 1Xeu jβj= xTEuβ
Agora temos dessas equações e as "empilharemos" em um vetor de coluna. Observe como é o único termo que depende de , para que possamos empilhá-lo no vetor e obtemos:p Xeu k k xEu
Agora podemos pegar a versão beta fora da soma (mas devemos permanecer no RHS da soma) e, em seguida, fazer a inversão:
fonte