Se os dados forem 1d, a variação mostrará até que ponto os pontos de dados são diferentes um do outro. Se os dados forem multidimensionais, obteremos uma matriz de covariância.
Existe uma medida que fornece um número único de como os pontos de dados são diferentes entre si em geral para dados multidimensionais?
Sinto que já pode haver muitas soluções, mas não tenho certeza do termo correto a ser usado para procurá-las.
Talvez eu possa fazer algo como somar os autovalores da matriz de covariância, isso parece sensato?
variance
covariance
covariance-matrix
dontloo
fonte
fonte
adding up the eigenvalues of the covariance matrix
é igual ao traço da ameba mencionado acima.Respostas:
(A resposta abaixo apenas introduz e declara o teorema comprovado em [0]. A beleza desse artigo é que a maioria dos argumentos é feita em termos de álgebra linear básica. Para responder a essa pergunta, basta dizer os principais resultados, mas por todos os meios, verifique a fonte original).
Em qualquer situação em que o padrão multivariado dos dados possa ser descrito por uma distribuição elípticak variável, a inferência estatística reduzirá, por definição, o problema de ajustar (e caracterizar) um vetor de localização variável k (digamos ) e um por simétrica matriz definida semi-positivo (dizer ) para os dados. Por razões que explico abaixo (mas que você já assume como premissas), muitas vezes será mais significativo decompor em um componente de forma (uma matriz SPSD do mesmo tamanho quek k Σ Σ Σ σ Sθ k k Σ Σ Σ ) responsável pelo formato dos contornos de densidade da sua distribuição multivariada e um escalar que expressa a escala desses contornos.σS
Nos dados univariados ( ), , a matriz de covariância de seus dados é escalar e, como se segue na discussão abaixo, o componente de forma de é 1, para que seja igual a seu componente de escala sempre e nenhuma ambiguidade é possível.Σ Σ Σ Σ = σ Sk=1 Σ Σ Σ Σ=σS
Em dados multivariados, muitas opções de funções de escala são possíveis. Um em particular ( ) se destaca por ter uma propriedade chave desejável. Isso deve torná-lo a escolha preferida do fator de escala no contexto das famílias elípticas.σ S = | ΣσS σS=|ΣΣ|1/k
Muitos problemas nas estatísticas de MV envolvem a estimativa de uma matriz de dispersão, definida como uma função (al) semi-positiva simétrica definida em e satisfatória:R k × kΣ Rk×k
A b
Na presença de dados elípticos distribuídos, em que todos os contornos de densidade são elipses definidos pela mesma matriz de forma, até a multiplicação por um escalar, é natural considerar versões normalizadas de da forma:Σ
em que é uma função 1-honógena que satisfaz:S
para todos . Então, é chamado o componente de forma da matriz de dispersão (na matriz de formas curtas) e é chamado de componente de escala da matriz de dispersão. Exemplos de problemas de estimativa multivariada em que a função de perda depende apenas de através de seu componente de forma incluem testes de esfericidade, PCA e CCA, entre outros.V S σ S = S 1 / 2 ( Σ ) Σ V Sλ>0 VS σS=S1/2(Σ) Σ VS
Obviamente, existem muitas funções de dimensionamento possíveis, de modo que isso ainda deixa em aberto a questão de qual (se houver) dentre várias opções da função de normalização é, em certo sentido, ideal. Por exemplo:S
No entanto, é a única função de dimensionamento para a qual a matriz Fisher Information para as estimativas correspondentes de escala e forma, em famílias localmente assintoticamente normais, é diagonal de bloco (que é a escala e os componentes de forma do problema de estimativa são assintoticamente ortogonais) [0]. Isso significa, entre outras coisas, que a escala funcional é a única opção de para a qual a não especificação de não causa perda de eficiência ao executar inferência em . S = | Σ | 1 / k S σ S V SS=|Σ|1/k S=|Σ|1/k S σS VS
Não conheço nenhuma caracterização de otimalidade comparativamente forte para qualquer uma das muitas opções possíveis de que satisfazem (1).S
fonte
A variação de uma variável escalar é definida como o desvio ao quadrado da variável de sua média:
Uma generalização para uma variação escalar-avaliada para variáveis aleatórias com valor vetorial pode ser obtida interpretando o desvio como a distância euclidiana :
Esta expressão pode ser reescrita como
onde é a matriz de covariância. Finalmente, isso pode ser simplificado paraC
que é o traço da matriz de covariância.
fonte
Embora o traço da matriz de covariância, tr (C) , forneça uma medida da variação total, ela não leva em consideração a correlação entre variáveis.
Se você precisar de uma medida da variação geral que seja grande quando suas variáveis forem independentes uma da outra e muito pequena quando as variáveis estiverem altamente correlacionadas, você poderá usar o determinante da matriz de covariância | | | .
Por favor, consulte este artigo para um melhor esclarecimento.
fonte
Se você precisar de apenas um número, sugiro o maior valor próprio de uma matriz de covariância. Essa também é uma variação explicada do primeiro componente principal no PCA. Indica quanta variação total pode ser explicada se você reduzir a dimensionalidade do seu vetor para um. Veja esta resposta em matemática SE.
A ideia é que você reduza seu vetor em apenas uma dimensão, combinando todas as variáveis linearmente em uma série. Você acaba com o 1d problema.
A variação explicada pode ser relatada em termos de% para a variação total. Nesse caso, você verá imediatamente se há muita correlação linear entre as séries. Em algumas aplicações, esse número pode ser 80% ou mais alto, por exemplo, modelagem de curva de taxa de juros em finanças. Isso significa que você pode construir uma combinação linear de variáveis que explica 80 de variação de todas as variáveis.
fonte
And it depends on the determinant of the covariance matrix, as @user603 suggests.
fonte