Digamos que eu tenha uma distribuição Gaussiana multivariada em dimensional. E tomo observações (cada uma delas um vetor ) dessa distribuição e calculo a matriz de covariância da amostra . Neste artigo , os autores afirmam que a matriz de covariância da amostra calculada com é singular.
- Como é verdade ou derivada?
- Alguma explicação?
covariance-matrix
linear-algebra
user34790
fonte
fonte
Respostas:
Alguns fatos sobre as classificações matriciais, oferecidos sem provas (mas as provas de todas ou quase todas devem ser fornecidas em textos de álgebra linear padrão ou, em alguns casos, configurados como exercícios depois de fornecer informações suficientes para poder fazê-lo):
Se e B são duas matrizes conformáveis, então:A B
(i) classificação da coluna de = classificação da linha de AA A
(ii)rank(A)=rank(AT)=rank(ATA)=rank(AAT)
(iii)rank(AB)≤min(rank(A),rank(B))
(iv)rank(A+B)≤rank(A)+rank(B)
(v) se é uma matriz quadrada de posição completa, então posição ( A B ) = posição ( A )B rank(AB)=rank(A)
Considere a matriz dos dados da amostra, y . Pelo exposto, a classificação de y é no máximo min ( n , p ) .n×p y y min(n,p)
Além disso, do exposto claramente a classificação de não será maior que a classificação de y (considerando o cálculo de S na forma de matriz, talvez com alguma simplificação).S y S
Se , classifique ( y ) < p; nesse caso, classifique ( S ) < p .n<p rank(y)<p rank(S)<p
fonte
A resposta curta para sua pergunta é a classificação . Então, se p > n , então S é singular.(S)≤n−1 p>n S
Para uma resposta mais detalhada, lembre-se de que a matriz de covariância de amostra (imparcial) pode ser escrita como
Efectivamente, nós estamos soma matrizes, cada um tendo uma classificação de 1. Assumindo que as observações são linearmente independentes, em certo sentido, cada observação x i contribui para um posto ( S ) , e um 1 é subtraído do valor (se p > n ) porque centralizamos cada observação por ˉ x . No entanto, se a multicolinearidade estiver presente nas observações, a classificação ( S ) poderá ser reduzida, o que explica por que a classificação pode ser menor que n - 1 .n xi (S) p>n x¯ (S) n−1
Uma grande quantidade de trabalho foi dedicada ao estudo desse problema. Por exemplo, um colega meu e eu escrevemos um artigo sobre esse mesmo tópico, onde estávamos interessados em determinar como proceder se é singular quando aplicado à análise discriminante linear na configuração p ≫ n .S p≫n
fonte
Quando você olha para a situação da maneira certa, a conclusão é intuitivamente óbvia e imediata.
Este post oferece duas demonstrações. O primeiro, imediatamente abaixo, está em palavras. É equivalente a um desenho simples, aparecendo no final. No meio está uma explicação do significado das palavras e do desenho.
A matriz de covariância para p observações -variate é um p × p matriz calculado por deixou-multiplicação de uma matriz X n p (os dados centrado de novo) pela sua transposta X ' p n . Este produto de matrizes envia vetores através de um pipeline de espaços vetoriais em que as dimensões são p e n . Por conseguinte, a matriz de covariâncias, qua transformação linear, vai enviar R n em um subespaço cuja dimensão é, no máximo, min ( p , n ) .n p p×p Xnp X′pn p n Rn min(p,n) É imediato que a classificação da matriz de covariância não seja maior que . min(p,n) Consequentemente, se então a classificação é no máximo n , o que - sendo estritamente menor que p - significa que a matriz de covariância é singular.p>n n p
Toda essa terminologia é totalmente explicada no restante deste post.
(Como Amoeba gentilmente apontou em um comentário agora excluído e mostra em resposta a uma pergunta relacionada , a imagem de na verdade está em um subespaço de codimensão um de R n (consistindo em vetores cujos componentes somam zero) porque todas as colunas foram marcadas com zero e, portanto, a classificação da matriz de covariância da amostra 1X Rn não pode excedern-1.)1n−1X′X n−1
Álgebra linear é tudo sobre o rastreamento de dimensões de espaços vetoriais. Você só precisa apreciar alguns conceitos fundamentais para ter uma intuição profunda de afirmações sobre classificação e singularidade:
A multiplicação de matrizes representa transformações lineares de vetores. Uma matriz M representa uma transformação linear de um espaço n- dimensional V n para um espaço m- dimensional V m . Especificamente, ele envia qualquer x ∈ V n para M x = y ∈ V m . Que esta é uma transformação linear segue imediatamente a definição de transformação linear e as propriedades aritméticas básicas da multiplicação de matrizes.m×n M n Vn m Vm x∈Vn Mx=y∈Vm
Transformações lineares nunca podem aumentar dimensões. Isto significa que a imagem de todo o espaço vectorial sob a transformação M (que é um espaço sub-vector de V m ) pode ter uma dimensão não superior a n . Este é um teorema (fácil) que se segue da definição de dimensão.Vn M Vm n
A dimensão de qualquer espaço de subvetor não pode exceder a do espaço em que se encontra. Este é um teorema, mas, novamente, é óbvio e fácil de provar.
A classificação de uma transformação linear é a dimensão de sua imagem. A classificação de uma matriz é a classificação da transformação linear que ela representa. Estas são definições.
Um singular matriz tem posto estritamente inferior a nMmn n (a dimensão do seu domínio). Em outras palavras, sua imagem possui uma dimensão menor. Esta é uma definição.
Para desenvolver a intuição, ajuda a ver as dimensões. Escreverei, portanto, as dimensões de todos os vetores e matrizes imediatamente após eles, como em e x n . Assim, a fórmula genéricaMmn xn
pretende significar que a matriz M , quando aplicada ao vetor n - x , produz um vetor m - y .m×n M n x m y
Products of matrices can be thought of as a "pipeline" of linear transformations. Generically, supposeya is an a -dimensional vector resulting from the successive applications of the linear transformations Mmn,Llm,…,Bbc, and Aab to the n -vector xn coming from the space Vn . This takes the vector xn successively through a set of vector spaces of dimensions m,l,…,c,b, and finally a .
Look for the bottleneck: because dimensions cannot increase (point 2) and subspaces cannot have dimensions larger than the spaces in which they lie (point 3), it follows that the dimension of the image ofVn cannot exceed the smallest dimension min(a,b,c,…,l,m,n) encountered in the pipeline.
This diagram of the pipeline, then, fully proves the result when it is applied to the productX′X :
fonte