Como você pode provar que as equações normais: têm uma ou mais soluções sem a suposição de que X é invertível?
Meu único palpite é que isso tem algo a ver com inverso generalizado, mas estou totalmente perdido.
regression
proof
Ryati
fonte
fonte
Respostas:
A pessoa é tentada a ser superficial e ressalta isso porque a forma quadrática
é semi-definido positivo, existe um para o qual é mínimo e esse mínimo é encontrado (configurando o gradiente em relação a para zero) com as equações normaisββ β
de onde deve haver pelo menos uma solução, independentemente da classificação deX′X . No entanto, esse argumento não parece estar no espírito da pergunta, que parece ser uma afirmação puramente algébrica. Talvez seja interessante entender por que essa equação deve ter uma solução e exatamente em que condições. Então, vamos começar de novo e fingir que não sabemos a conexão com menos quadrados.
Tudo se resume ao significado de , a transposta de . Isso acabará sendo uma questão de uma definição simples, notação apropriada e o conceito de uma forma sesquilinear não - regenerada. Lembre-se de que é a "matriz de design" de linhas (uma para cada observação) colunas (uma para cada variável, incluindo uma constante, se houver). Portanto, representa uma transformação linear do espaço vetorial em . X X n p V = R p W = R nX′ X X n p V=Rp W=Rn
A transposição de , considerada uma transformação linear , é uma transformação linear dos espaços duplos . Para entender uma composição como , é necessário identificar com . É o que o produto interno usual (soma dos quadrados) em faz.X ' : W * → V * X ' X W * W WX X′:W∗→V∗ X′X W∗ W W
Na verdade, existem dois produtos internos e definidos em e respectivamente. Essas são funções simétricas bilineares de valor real que não são degeneradas . Este último significa queg V V WgV gW V W
com instruções análogas para . Geometricamente, esses produtos internos nos permitem medir comprimento e ângulo. A condição pode ser pensada como sendo "perpendicular" a . Não-regeneração significa que apenas o vetor zero é perpendicular a todo o espaço vetorial. (Essa generalidade significa que os resultados obtidos aqui se aplicarão à configuração de mínimos quadrados generalizados , para a qual não é necessariamente o produto interno usual dado como a soma dos produtos dos componentes, mas é uma forma arbitrária e não degenerada. Poderíamos dispensar completamente , definindo g ( u , v ) = 0 u v g W g V X ′ : W → V ∗gV g(u,v)=0 u v gW gV X′:W→V∗ , mas espero que muitos leitores não estejam familiarizados ou desconfortáveis com espaços duplos e, portanto, evite esta formulação.)
Com esses produtos internos em mãos, a transposição de qualquer transformação linear é definida por viaX ′ : W → VX:V→W X′:W→V
para todos e . Que existe realmente um vetor com essa propriedade pode ser estabelecido escrevendo coisas com bases para e ; que esse vetor é único decorre da não degeneração dos produtos internos. Se e são dois vetores para os quais para todos os , então (a partir da linearidade no primeiro componente) para todos implicando . v ∈ V X ′ ( w ) ∈ Vw∈W v∈V X′(w)∈V W v 1 v 2 g V ( v 1 , v ) = g V ( v 2 , v ) v ∈ V g V ( v 1 - v 2 , v ) = 0 v v 1 - v 2 = 0V W v1 v2 gV(v1,v)=gV(v2,v) v∈V gV(v1−v2,v)=0 v v1−v2=0
Quando gravação para o conjunto de todos os vectores perpendicular a cada vector no . Também como uma questão de notação, escreva para a imagem de , definida como o conjunto . Uma relação fundamental entre e sua transposição éU ⊥ U X ( V ) X { X ( v ) | v ∈ V } ⊂ W X X ′U⊂W, U⊥ U X(V) X {X(v)|v∈V}⊂W X X′
Ou seja, está no kernel do se e somente se é perpendicular à imagem de . X ′ w Xw X′ w X Esta afirmação diz duas coisas:
Se , então para todo , que meramente significa que é perpendicular a .X′(w)=0 gW(w,X(v))=gV(X′(w),v)=gV(0,v)=0 v∈V w X(V)
Se é perpendicular a , isso significa apenas para todos os , mas isso é equivalente a e a não-regeneração de implica .w X(V) gW(w,X(v))=0 v∈V gV(X′(w),v)=0 gV X′(w)=0
Na verdade, estamos prontos agora. A análise mostrou que decompõe como um produto direto . Ou seja, podemos pegar qualquer arbitrário e escrevê-lo exclusivamente como com e . Isso significa é da forma para, pelo menos, uma . Observe, então, queW W=X(V)⊕X(V)⊥ y∈W y=y0+y⊥ y0∈X(V) y⊥∈X(V)⊥ y0 X(β) β∈V
A relação fundamental diz que é o mesmo que o lado esquerdo do kernel do :X′
onde resolve as equações normaisβ X′Xβ=X′y.
Agora, estamos em posição de dar uma breve resposta geométrica à pergunta (junto com alguns comentários reveladores): as equações normais têm uma solução porque qualquer vetor - decompõe (exclusivamente) como a soma de um vetor na gama de e de outro vector perpendicular ao e é a imagem de pelo menos uma -vector . A dimensão da imagem (sua classificação ) é a dimensão dos parâmetros identificáveis . A dimensão do kernel don y∈W y0 X y⊥ y0 y0 p β∈V X(V) X conta as relações lineares não triviais entre os parâmetros. Todos os parâmetros podem ser identificados quando é um mapa de um-para-um de a sua imagem no .X V W
É em última análise, útil para dispensar o espaço completamente e trabalho inteiramente com o subespaço , o "espaço de coluna" da matriz . A quantidade equações normais de projecção ortogonal sobre . Isso nos livra conceitualmente de estarmos vinculados a qualquer parametrização específica do modelo e mostra que os modelos de mínimos quadrados têm uma dimensão intrínseca independente de como eles são parametrizados.V U=X(V)⊂W X U
Um resultado interessante dessa demonstração algébrica abstrata é que podemos resolver as equações normais em espaços vetoriais arbitrários. O resultado vale, por exemplo, para espaços complexos, para espaços sobre campos finitos (onde minimizar uma soma de quadrados faz pouco sentido) e até mesmo sobre espaços de dimensão infinita que suportam formas sequilineares adequadas.
fonte
É fácil mostrar (tente por si mesmo, por um número arbitrário de pontos, ) que o inverso de existe se houver pelo menos dois valores distintos (preditores) no conjunto de amostras. Somente se todos os seus dados tiverem os mesmos valores (ou seja, pontos empilhados na direção , ao longo de uma linha vertical), qualquer linha traçada na média terá uma inclinação arbitrária (coeficiente de regressão) , para que a linha de regressão do LSE não seja exclusiva.n XTX x xi=x y y¯¯¯
fonte
Na regressão típica, X é magro e, portanto, certamente não é invertível (embora possa ser deixado invertível.) É fácil provar (pergunte se você precisa de ajuda) que se X é magro e é deixado invertível, X ^ T * X é invertível. Nesse caso, haverá exatamente uma solução. E se X não tiver classificação de coluna completa, X ^ T * X não será de classificação completa e, portanto, você terá um sistema indeterminado.
fonte