Existe uma interpretação intuitiva de para uma matriz de dados ?

107

Para uma dada matriz de dados (com variáveis ​​em colunas e pontos de dados em linhas), parece que desempenha um papel importante na estatística. Por exemplo, é uma parte importante da solução analítica dos mínimos quadrados comuns. Ou, para o PCA, seus autovetores são os principais componentes dos dados.A T AAATA

Eu entendo como calcular , mas fiquei pensando se há uma interpretação intuitiva do que essa matriz representa, o que leva a seu importante papel?ATA

Alec
fonte
2
Alguma intuição pode ser proporcionada pela análise em stats.stackexchange.com/a/66295/919 .
whuber

Respostas:

125

Geometricamente, matriz é chamada matriz de produtos escalares (= produtos , = produtos internos). Algebricamente, é chamada de matriz de soma de quadrados e produtos cruzados ( SSCP ).AA

Seu ésimo elemento diagonal é igual a , onde denota valores na -ésima coluna de e é a soma entre linhas. O -ésimo elemento fora da diagonal é .Σ um 2 ( i ) um ( i ) i Uma Σ i j Σ um ( i ) um ( j )ia(i)2a(i)iAija(i)a(j)

Há vários coeficientes de associação importantes e suas matrizes quadradas são chamadas de semelhanças angulares ou semelhanças do tipo SSCP:

  • Dividindo a matriz SSCP por , o tamanho da amostra ou o número de linhas de , você obtém a matriz MSCP (produto médio quadrado e produto cruzado). A fórmula em pares dessa medida de associação é, portanto, (com os vetores e sendo um par de colunas de ).Um Σ x ynA xyAxynxyA

  • Se você centraliza as colunas (variáveis) de , então é a dispersão (ou co-dispersão, se for rigorosa) e é a covariância matriz. A fórmula de covariância é com e denotando colunas centralizadas.Um ' Uma Um ' Um / ( n - 1 ) Σ c x c yAAAAA/(n1) cxcycxcyn1cxcy

  • Se você padronizar z colunas de (subtrair a média da coluna e dividir pelo desvio padrão), então é a matriz de correlação de Pearson : correlação é covariância para variáveis ​​padronizadas. A fórmula de correlação é com e indicando colunas padronizadas. A correlação também é chamada de coeficiente de linearidade.A A / ( n - 1 ) z x z yAAA/(n1) zxzyzxzyn1zxzy

  • Se você dimensionar as colunas da unidade de (traga o SS, soma dos quadrados para 1), então é a matriz de similaridade do cosseno . A fórmula pareada equivalente parece ser com e denotando colunas normalizadas em L2 . A semelhança do cosseno também é chamada de coeficiente de proporcionalidade.Um ' Um Σ u x u y = Σ x yAAA uxuyuxuy=xyx2y2uxuy

  • Se você centralizar e, em seguida, as colunas em escala de de , então será novamente a matriz de correlação de Pearson , porque a correlação é cosseno para variáveis ​​centralizadas :A A 1 , 2c u x c u y = c x c yAAA1,2cuxcuy=cxcycx2cy2

Juntamente com essas quatro principais medidas de associação, mencionemos também outras, também baseadas em , para completar. Eles podem ser vistos como medidas alternativas à semelhança de cosseno porque adotam diferente da normalização, o denominador na fórmula:AA

  • O coeficiente de identidade [Zegers e dez Berge, 1985] tem seu denominador na forma de média aritmética em vez de média geométrica: . Pode ser 1 se e somente se as colunas comparadas de forem idênticas. Axy(x2+y2)/2A

  • Outro coeficiente utilizável como o chamado índice de similaridade : .xyx2+y2xy=xyxy+(xy)2

  • Finalmente, se os valores em não são negativos e sua soma nas colunas é 1 (por exemplo, são proporções), então é a matriz de fidelidade ou o coeficiente de Bhattacharyya .AAA


A A s A n C = A A - s s / n C / ( n - 1 ) C d R = C / 1 Uma maneira também de calcular a matriz de correlação ou covariância, usada por muitos pacotes estatísticos, ignora a centralização dos dados e parte diretamente da matriz SSCP dessa maneira. Seja o vetor de linha das somas de dados da coluna enquanto é o número de linhas nos dados. Então (1) calcule a matriz de dispersão como [daí, será a matriz de covariância]; (2) a diagonal de é a soma dos desvios ao quadrado, vetor de linha ; (3) calcular a matriz de correlação .AAsAnC=AAss/nC/(n1)CdR=C/dd

n2 Um leitor agudo, mas estatisticamente novato, pode achar difícil conciliar as duas definições de correlação - como "covariância" (que inclui a média pelo tamanho da amostra, a divisão por df = "n-1") e como "cosseno" (o que implica essa média). Mas, de fato, nenhuma média real na primeira fórmula de correlação ocorre. A coisa é que st. o desvio, pelo qual a padronização z foi alcançada, havia sido calculado com a divisão pelo mesmo df ; e assim o denominador "n-1" na fórmula da correlação-como-covariância é totalmente cancelado se você desembrulhar a fórmula: a fórmula se transforma na fórmula do cosseno . Para calcular o valor da correlação empírica, você realmente não precisa sabern (exceto ao calcular a média, para centralizar).

ttnphns
fonte
42

A matriz contém todos os produtos de interiores de todas as colunas em . A diagonal contém as normas quadráticas das colunas. Se você pensar em geometria e projeções ortogonais no espaço da coluna estendido pelas colunas em você deve se lembrar de que as normas e os produtos internos dos vetores que abrangem esse espaço desempenham um papel central no cálculo da projeção. A regressão de mínimos quadrados, bem como os componentes principais, podem ser entendidos em termos de projeções ortogonais.A AATAAA

Observe também que se as colunas de são ortonormais, formando assim uma base ortonormal para o espaço da coluna, então a matriz de identidade.A T A = I -AATA=I

NRH
fonte
39

@NRH deu uma boa resposta técnica.

Se você quer algo realmente básico, pode pensar em como a matriz equivalente de para um escalar.A 2ATAA2

Peter Flom
fonte
5
Embora outras respostas sejam mais "tecnicamente" corretas, essa é a resposta mais intuitiva.
397302 CatsJingJazz
3

Uma visão importante da geometria de é esta (o ponto de vista fortemente enfatizado no livro de Strang sobre "Álgebra Linear e Suas Aplicações"): Suponha que A seja uma matriz da classificação k, representando um mapa linear . Deixe-Col (A) e Fila (A) ser os espaços de coluna e linha . EntãoAAm×nA:RnRmA

(a) Como uma matriz simétrica real, tem uma base de vetores próprios com valores próprios diferentes de zero . Portanto:(AA):RnRn{e1,...,en}d1,,dk

(AA)(x1e1++xnen)=d1x1e1+...+dkxkek .

(b) Faixa (A) = Col (A), por definição de Col (A). Então A | Row (A) mapeia a Row (A) para Col (A).

(c) O núcleo (A) é o complemento ortogonal da linha (A). Isso ocorre porque a multiplicação de matrizes é definida em termos de produtos de ponto (linha i) * (col j). (Portanto,Av=0v is in Kernel(A)vis in orthogonal complement of Row(A)

(d) e é um isomorfismo .A(Rn)=A(Row(A))A|Row(A):Row(A)Col(A)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[Aliás, fornece uma prova de que Rank da linha = Rank da coluna!]

(e) A aplicação de (d), é um isomorfismoA|:Col(A)=Row(A)Col(A')=Row(A)

(f) Por (d) e (e): e A'A mapeiam a Row (A) isomorficamente na Row (A).AA(Rn)=Row(A)

Marshall M. Cohen
fonte
2
Você pode colocar uma fórmula em $ e $ para obter . LATEX
Placidia
2

Embora já tenha sido discutido que tem o significado de obter produtos de ponto, eu apenas adicionaria uma representação gráfica dessa multiplicação.ATA

De fato, enquanto as linhas da matriz (e as colunas da matriz ) representam variáveis, tratamos cada medida de variável como um vetor multidimensional. Multiplicar a linha de pela coluna de equivale a obter o produto escalar de dois vetores: - sendo o resultado a entrada na posição dentro da matriz .ATArowpATcolpAdot(rowp,colp)(p,p)ATA

Da mesma forma, multiplicar a linha de pela coluna de equivale ao produto : , com o resultado na posição .pATkAdot(rowp,colk)(p,k)

A entrada da matriz resultante tem o significado de quanto o vetor está na direção do vetor . Se o produto de ponto de dois vectores e é diferente de zero, alguma informação acerca de um vector é realizado por um vector , e vice-versa.(p,k)ATArowpcolkrowicoljrowicolj

Essa idéia desempenha um papel importante na Análise de componentes principais, onde queremos encontrar uma nova representação de nossa matriz de dados inicial modo que, não haja mais informações sobre qualquer coluna em nenhuma outra coluna . Estudando o PCA mais profundamente, você verá que uma "nova versão" da matriz de covariância é computada e ela se torna uma matriz diagonal que deixo para você perceber que ... de fato, significa o que eu expressei na sentença anterior.Aiji

insira a descrição da imagem aqui

camillejr
fonte
1

Existem níveis de intuição. Para aqueles familiarizados com a instabilidade da notação matricial, a intuição é pensar nela como um quadrado da variável aleatória: vsxE[x2]AATA

Na notação matricial, uma amostra da variável aleatória observações ou uma população é representada por um vetor de coluna:xxi

a=[x1x2xn]

Portanto, se você deseja obter uma média da amostra do quadrado da variável , simplesmente obtém um produto de ponto , que é o mesmo na notação matricial que .x

x2¯=aan
ATA

Observe que, se a média amostral da variável for ZERO, a variação será igual à média do quadrado: que é análogo a . Essa é a razão pela qual no PCA você precisa da média zero e por que aparece, afinal o PCA decompõe a matriz de variação do conjunto de dados.σ2=E[x2]ATAATA

Aksakal
fonte