Por que uma matriz de covariância de amostra é singular quando o tamanho da amostra é menor que o número de variáveis?

30

Digamos que eu tenha uma distribuição Gaussiana multivariada em dimensional. E tomo observações (cada uma delas um vetor ) dessa distribuição e calculo a matriz de covariância da amostra . Neste artigo , os autores afirmam que a matriz de covariância da amostra calculada com é singular. $p$ $n$ $p$ $S$ $p > n$

Como é verdade ou derivada?
Alguma explicação?

covariance-matrix linear-algebra user34790
fonte

4

Observe que isso é verdade independentemente da distribuição subjacente: não precisa ser gaussiano.

Ameba diz Reinstate Monica

22

Alguns fatos sobre as classificações matriciais, oferecidos sem provas (mas as provas de todas ou quase todas devem ser fornecidas em textos de álgebra linear padrão ou, em alguns casos, configurados como exercícios depois de fornecer informações suficientes para poder fazê-lo):

Se e são duas matrizes conformáveis, então: $A$ $B$

(i) classificação da coluna de = classificação da linha de $A$ $A$

(ii) $\text{rank}(A) = \text{rank}(A^T) = \text{rank}(A^TA) = \text{rank}(AA^T)$

(iii) $\text{rank}(AB)\leq \min(\text{rank}(A),\text{rank}(B))$

(iv) $\text{rank}(A+B) \leq \text{rank}(A) + \text{rank}(B)$

(v) se é uma matriz quadrada de posição completa, então $B$ $\text{rank}(AB) = \text{rank}(A)$

Considere a matriz dos dados da amostra, . Pelo exposto, a classificação de é no máximo . $n\times p$ $y$ $y$ $\min(n,p)$

Além disso, do exposto claramente a classificação de não será maior que a classificação de (considerando o cálculo de na forma de matriz, talvez com alguma simplificação). $S$ $y$ $S$

Se , nesse caso, . $n<p$ $\text{rank}(y)<p$ $\text{rank}(S)<p$

Glen_b -Reinstate Monica
fonte

boa resposta! Não está totalmente claro, no entanto, como y e S se relacionam com A e B?

Matifou 27/10

S é calculado a partir de y; ("x" na postagem original). Você pode usar os fatos sobre ye as manipulações feitas nele (através das regras acima) para obter um limite na classificação S. Os papéis desempenhados por A e B mudam de um passo para o outro.

Glen_b -Reinstate Monica

14

A resposta curta para sua pergunta é a classificação . Então, se , então é singular. $(S) \le n - 1$ $p > n$ $S$

Para uma resposta mais detalhada, lembre-se de que a matriz de covariância de amostra (imparcial) pode ser escrita como

S = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (x_{i} - \bar{x})^{T} .

$S = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})(x_i - \bar{x})^T.$

Efectivamente, nós estamos soma matrizes, cada um tendo uma classificação de 1. Assumindo que as observações são linearmente independentes, em certo sentido, cada observação contribui para um posto , e um 1 é subtraído do valor (se ) porque centralizamos cada observação por . No entanto, se a multicolinearidade estiver presente nas observações, a classificação poderá ser reduzida, o que explica por que a classificação pode ser menor que . $n$ $x_i$ $(S)$ $p > n$ $\bar{x}$ $(S)$ $n - 1$

Uma grande quantidade de trabalho foi dedicada ao estudo desse problema. Por exemplo, um colega meu e eu escrevemos um artigo sobre esse mesmo tópico, onde estávamos interessados em determinar como proceder se é singular quando aplicado à análise discriminante linear na configuração . $S$ $p \gg n$

ramhiser
fonte

4

Você poderia explicar por que subtrair 1 porque centralizamos cada observação por $\bar x$ ?

abacate

@loganecolss: Consulte Por que a classificação da matriz de covariância é no máximo

?

n - 1

$n−1$ para uma resposta à sua pergunta.

Ameba diz Reinstate Monica

Boa resposta! Talvez você possa apenas adicionar uma explicação / link para o fato de a declaração que estamos somando 𝑛 matrizes, cada uma com uma classificação de 1 ? Obrigado!

Matifou 27/10

10

Quando você olha para a situação da maneira certa, a conclusão é intuitivamente óbvia e imediata.

Este post oferece duas demonstrações. O primeiro, imediatamente abaixo, está em palavras. É equivalente a um desenho simples, aparecendo no final. No meio está uma explicação do significado das palavras e do desenho.

A matriz de covariância para observações -variate é um matriz calculado por deixou-multiplicação de uma matriz (os dados centrado de novo) pela sua transposta . Este produto de matrizes envia vetores através de um pipeline de espaços vetoriais em que as dimensões são e . Por conseguinte, a matriz de covariâncias, qua transformação linear, vai enviar em um subespaço cuja dimensão é, no máximo, . $n$ $p$ $p\times p$ $\mathbb{X}_{np}$ $\mathbb{X}_{pn}^\prime$ $p$ $n$ $\mathbb{R}^n$ $\min(p,n)$ É imediato que a classificação da matriz de covariância não seja maior que . $\min(p,n)$ Consequentemente, se então a classificação é no máximo , o que - sendo estritamente menor que significa que a matriz de covariância é singular. $p\gt n$ $n$ $p$

Toda essa terminologia é totalmente explicada no restante deste post.

(Como Amoeba gentilmente apontou em um comentário agora excluído e mostra em resposta a uma pergunta relacionada , a imagem de na verdade está em um subespaço de codimensão um de (consistindo em vetores cujos componentes somam zero) porque todas as colunas foram marcadas com zero e, portanto, a classificação da matriz de covariância da amostra $\mathbb X$ $\mathbb{R}^n$ não pode exceder) $\frac{1}{n-1}\mathbb{X}^\prime \mathbb{X}$ $n-1$

Álgebra linear é tudo sobre o rastreamento de dimensões de espaços vetoriais. Você só precisa apreciar alguns conceitos fundamentais para ter uma intuição profunda de afirmações sobre classificação e singularidade:

A multiplicação de matrizes representa transformações lineares de vetores. Uma matriz representa uma transformação linear de um espaço dimensional para um espaço dimensional . Especificamente, ele envia qualquer para . Que esta é uma transformação linear segue imediatamente a definição de transformação linear e as propriedades aritméticas básicas da multiplicação de matrizes. $m\times n$ $\mathbb{M}$ $n$ $V^n$ $m$ $V^m$ $x\in V^n$ $\mathbb{M}x = y \in V^m$
Transformações lineares nunca podem aumentar dimensões. Isto significa que a imagem de todo o espaço vectorial sob a transformação (que é um espaço sub-vector de ) pode ter uma dimensão não superior a . Este é um teorema (fácil) que se segue da definição de dimensão. $V^n$ $\mathbb M$ $V^m$ $n$
A dimensão de qualquer espaço de subvetor não pode exceder a do espaço em que se encontra. Este é um teorema, mas, novamente, é óbvio e fácil de provar.
A classificação de uma transformação linear é a dimensão de sua imagem. A classificação de uma matriz é a classificação da transformação linear que ela representa. Estas são definições.
Um singular matriz tem posto estritamente inferior a $\mathbb{M}_{mn}$ $n$ (a dimensão do seu domínio). Em outras palavras, sua imagem possui uma dimensão menor. Esta é uma definição.

Para desenvolver a intuição, ajuda a ver as dimensões. Escreverei, portanto, as dimensões de todos os vetores e matrizes imediatamente após eles, como em e . Assim, a fórmula genérica $\mathbb{M}_{mn}$ $x_n$

y_{m} = M_{m n} x_{n}

$y_m = \mathbb{M}_{mn} x_n$

pretende significar que a matriz , quando aplicada ao vetor - , produz um vetor - . $m\times n$ $\mathbb M$ $n$ $x$ $m$ $y$

Products of matrices can be thought of as a "pipeline" of linear transformations. Generically, suppose $y_a$ is an $a$ -dimensional vector resulting from the successive applications of the linear transformations $\mathbb{M}_{mn}, \mathbb{L}_{lm}, \ldots, \mathbb{B}_{bc},$ and $\mathbb{A}_{ab}$ to the $n$ -vector $x_n$ coming from the space $V^n$ . This takes the vector $x_n$ successively through a set of vector spaces of dimensions $m, l, \ldots, c, b,$ and finally $a$ .

Look for the bottleneck: because dimensions cannot increase (point 2) and subspaces cannot have dimensions larger than the spaces in which they lie (point 3), it follows that the dimension of the image of $V^n$ cannot exceed the smallest dimension $\min(a,b,c,\ldots,l,m,n)$ encountered in the pipeline.

This diagram of the pipeline, then, fully proves the result when it is applied to the product $\mathbb{X}^\prime \mathbb{X}$ :

whuber
fonte

Por que uma matriz de covariância de amostra é singular quando o tamanho da amostra é menor que o número de variáveis?

Respostas: