Pergunta sobre uma prova de equação normal

11

Como você pode provar que as equações normais: têm uma ou mais soluções sem a suposição de que X é invertível?(XTX)β=XTY

Meu único palpite é que isso tem algo a ver com inverso generalizado, mas estou totalmente perdido.

Ryati
fonte
11
Você ganha pontos fazendo perguntas que provocam respostas surpreendentes.
Nikana Reklawyks

Respostas:

14

A pessoa é tentada a ser superficial e ressalta isso porque a forma quadrática

β(YXβ)(YXβ)

é semi-definido positivo, existe um para o qual é mínimo e esse mínimo é encontrado (configurando o gradiente em relação a para zero) com as equações normaisβββ

XX(YXβ)=0,

de onde deve haver pelo menos uma solução, independentemente da classificação deXX . No entanto, esse argumento não parece estar no espírito da pergunta, que parece ser uma afirmação puramente algébrica. Talvez seja interessante entender por que essa equação deve ter uma solução e exatamente em que condições. Então, vamos começar de novo e fingir que não sabemos a conexão com menos quadrados.


Tudo se resume ao significado de , a transposta de . Isso acabará sendo uma questão de uma definição simples, notação apropriada e o conceito de uma forma sesquilinear não - regenerada. Lembre-se de que é a "matriz de design" de linhas (uma para cada observação) colunas (uma para cada variável, incluindo uma constante, se houver). Portanto, representa uma transformação linear do espaço vetorial em . X X n p V = R p W = R nXXXnpV=RpW=Rn

A transposição de , considerada uma transformação linear , é uma transformação linear dos espaços duplos . Para entender uma composição como , é necessário identificar com . É o que o produto interno usual (soma dos quadrados) em faz.X ' : W *V * X ' X W * W WX X:WVXXWWW

Na verdade, existem dois produtos internos e definidos em e respectivamente. Essas são funções simétricas bilineares de valor real que não são degeneradas . Este último significa queg V V WgVgWVW

gW(u,v)=0 uWv=0,

com instruções análogas para . Geometricamente, esses produtos internos nos permitem medir comprimento e ângulo. A condição pode ser pensada como sendo "perpendicular" a . Não-regeneração significa que apenas o vetor zero é perpendicular a todo o espaço vetorial. (Essa generalidade significa que os resultados obtidos aqui se aplicarão à configuração de mínimos quadrados generalizados , para a qual não é necessariamente o produto interno usual dado como a soma dos produtos dos componentes, mas é uma forma arbitrária e não degenerada. Poderíamos dispensar completamente , definindo g ( u , v ) = 0 u v g W g V X : WVgVg(u,v)=0uvgWgVX:WV, mas espero que muitos leitores não estejam familiarizados ou desconfortáveis ​​com espaços duplos e, portanto, evite esta formulação.)

Com esses produtos internos em mãos, a transposição de qualquer transformação linear é definida por viaX : WVX:VWX:WV

gV(X(w),v)=gW(w,X(v))

para todos e . Que existe realmente um vetor com essa propriedade pode ser estabelecido escrevendo coisas com bases para e ; que esse vetor é único decorre da não degeneração dos produtos internos. Se e são dois vetores para os quais para todos os , então (a partir da linearidade no primeiro componente) para todos implicando . v V X ( w ) VwWvVX(w)VW v 1 v 2 g V ( v 1 , v ) = g V ( v 2 , v ) v V g V ( v 1 - v 2 , v ) = 0 v v 1 - v 2 = 0VWv1v2gV(v1,v)=gV(v2,v)vVgV(v1v2,v)=0vv1v2=0

Quando gravação para o conjunto de todos os vectores perpendicular a cada vector no . Também como uma questão de notação, escreva para a imagem de , definida como o conjunto . Uma relação fundamental entre e sua transposição éUU X ( V ) X { X ( v ) | v V } W X X UW,UUX(V)X{X(v)|vV}WXX

X(w)=0wX(V).

Ou seja, está no kernel do se e somente se é perpendicular à imagem de . X w XwXwX Esta afirmação diz duas coisas:

  1. Se , então para todo , que meramente significa que é perpendicular a .X(w)=0gW(w,X(v))=gV(X(w),v)=gV(0,v)=0vVwX(V)

  2. Se é perpendicular a , isso significa apenas para todos os , mas isso é equivalente a e a não-regeneração de implica .wX(V)gW(w,X(v))=0vVgV(X(w),v)=0gVX(w)=0

Na verdade, estamos prontos agora. A análise mostrou que decompõe como um produto direto . Ou seja, podemos pegar qualquer arbitrário e escrevê-lo exclusivamente como com e . Isso significa é da forma para, pelo menos, uma . Observe, então, queWW=X(V)X(V) yWy=y0+yy0X(V)yX(V)y0X(β)βV

yXβ=(y0+y)y0=yX(V)

A relação fundamental diz que é o mesmo que o lado esquerdo do kernel do :X

X(yXβ)=0,

onde resolve as equações normaisβXXβ=Xy.


Agora, estamos em posição de dar uma breve resposta geométrica à pergunta (junto com alguns comentários reveladores): as equações normais têm uma solução porque qualquer vetor - decompõe (exclusivamente) como a soma de um vetor na gama de e de outro vector perpendicular ao e é a imagem de pelo menos uma -vector . A dimensão da imagem (sua classificação ) é a dimensão dos parâmetros identificáveis . A dimensão do kernel donyWy0Xyy0y0pβVX(V)Xconta as relações lineares não triviais entre os parâmetros. Todos os parâmetros podem ser identificados quando é um mapa de um-para-um de a sua imagem no .XVW

É em última análise, útil para dispensar o espaço completamente e trabalho inteiramente com o subespaço , o "espaço de coluna" da matriz . A quantidade equações normais de projecção ortogonal sobre . Isso nos livra conceitualmente de estarmos vinculados a qualquer parametrização específica do modelo e mostra que os modelos de mínimos quadrados têm uma dimensão intrínseca independente de como eles são parametrizados.VU=X(V)WXU


Um resultado interessante dessa demonstração algébrica abstrata é que podemos resolver as equações normais em espaços vetoriais arbitrários. O resultado vale, por exemplo, para espaços complexos, para espaços sobre campos finitos (onde minimizar uma soma de quadrados faz pouco sentido) e até mesmo sobre espaços de dimensão infinita que suportam formas sequilineares adequadas.

whuber
fonte
11
Eu nunca tive o representante para aceitar esta resposta até muito mais tarde. Acabei de tropeçar nisso e queria agradecer novamente!
ryati
Eu escreveria essa forma quadrática como vez de como e use a outra seta para coisas como
β(YXβ)(YXβ)
β(YXβ)(YXβ),
f:AB.
Michael Hardy
@ Michael Deve haver um erro tipográfico no seu comentário. Importa-se de esclarecer o que quis dizer?
whuber
@ whuber: Não encontro nenhum erro tipográfico. O ponto é que as duas setas e têm significados diferentes. ''''
Michael Hardy
@ Michael Perdoe-me por não ver essa distinção, apesar de muitas leituras. Independentemente disso, para mim a primeira flecha se refere a uma função injetiva, enquanto a segunda se refere a qualquer função, mas suspeito que não seja isso que você pretende. Você se importaria de explicar sua notação?
whuber
0

É fácil mostrar (tente por si mesmo, por um número arbitrário de pontos, ) que o inverso de existe se houver pelo menos dois valores distintos (preditores) no conjunto de amostras. Somente se todos os seus dados tiverem os mesmos valores (ou seja, pontos empilhados na direção , ao longo de uma linha vertical), qualquer linha traçada na média terá uma inclinação arbitrária (coeficiente de regressão) , para que a linha de regressão do LSE não seja exclusiva.nXTXxxi=xyy¯

Lucozade
fonte
Para completar, para regressão linear simples, enquanto para regressão linear múltipla. X = [ 1 x 11x m 1 ; ... ; 1 x 1 nx m n ]X=[1 x1;1 x2;;1 xn]X=[1 x11xm1;;1 x1nxmn]
Lucozade
3
A referência à regressão múltipla no comentário é intrigante, porque esta resposta se aplica claramente apenas ao caso de regressão comum em que alguém está ajustando uma "linha" em vez de uma superfície de maior dimensão. Além disso, você parece ter respondido a uma pergunta diferente: essa pergunta apenas sobre o caso em que o não é invertível. XX
whuber
0

Na regressão típica, X é magro e, portanto, certamente não é invertível (embora possa ser deixado invertível.) É fácil provar (pergunte se você precisa de ajuda) que se X é magro e é deixado invertível, X ^ T * X é invertível. Nesse caso, haverá exatamente uma solução. E se X não tiver classificação de coluna completa, X ^ T * X não será de classificação completa e, portanto, você terá um sistema indeterminado.

user542833
fonte
11
Estas observações parecem não abordar a questão: independentemente do posto de , ainda vai existir uma solução. Como exemplo, considere o caso extremo em que é uma matriz de todos os zeros. Então as equações normais se reduzem a e qualquer é uma solução. X 0 β = 0 βXXX0β=0 β
whuber
whuber: é claro que eles abordar a questão: um soln se X é posto coluna cheia (como mencionei) e infinitas soluções se é um sistema subdeterminada
user542833
11
O fato de o sistema ser "subdeterminado" não implica que ele tenha nenhuma solução. A questão é sobre a existência de soluções.
whuber