Distribuição da distância de Mahalanobis no nível de observação

23

Se eu tiver uma amostra de amostra normal multivariada X1,,XnNp(μ,Σ) e definir

di2(b,A)=(Xib)A1(Xib)
(que é uma distância de Mahalanobis [ao quadrado] de um ponto de amostra ao vetor a usando a matriz para ponderação),Aqual é a distribuição de (distância de Mahalanobis à média da amostra usando a matriz de covariância da amostra )?di2(X¯,S)X¯S

Estou vendo um artigo que afirma que é , mas isso está obviamente errado: a teria sido obtida para usando o vetor médio da população (desconhecida) e matriz de covariância. Quando os análogos da amostra estão conectados, é necessário obter uma distribuição Hotelling ou uma distribuição escala , ou algo assim, mas não o . Não encontrei o resultado exato nem em Muirhead (2005) , nem em Anderson (2003) , nem em Mardia, Kent e Bibby (1979, 2003).χp2χp2di2(μ,Σ)T 2F()χp2. Aparentemente, esses caras não se incomodaram com diagnósticos extremos, pois a distribuição normal multivariada é perfeita e é facilmente obtida sempre que se coleta dados multivariados: - /.

As coisas podem ser mais complicadas do que isso. O resultado da distribuição Hotelling é baseado em assumir a independência entre a parte do vetor e a parte da matriz; essa independência vale para e , mas não vale mais para eT 2X¯SXi .S

StasK
fonte
Na definição de , você ainda vê X i como uma variável aleatória ou agora o está tratando como um vetor fixo? Incluir o subscrito sugere o último, mas isso parece um pouco estranho. di2Xi
whuber
1
Apenas um pouco fora da bainha-conduta nota lateral, mas aviso que é acessória em relação a u e Σ i d 2 i ( ˉ X , S ) é igual a uma constante fixa (deve ser n - p , ou similar, eu acho) quase certamente. XiX¯μEudEu2(X¯,S)n-p
cardeal
1
@ whuber - talvez para enfatizar que é calculado usando uma observação da amostra, não uma nova observação?
jbowman
1
@whuber, mais ou menos na linha do que jbowman disse - para indicar que esta é uma estatística no nível de observação (em oposição a uma estatística no nível da amostra, como média da amostra).
Stask
1
A distribuição de é um beta, n / ( n - 1 ) 2 d 2 i ( ˉ X , S ) B ( p / 2 , ( n - p - 1 ) / 2 ) , mas ainda estou procurando a distribuição de d 2 i ( μ , S )dEu2(X¯,S)n/(n1)2di2(X¯,S)B(p/2,(np1)/2)di2(μ,S). As distribuições dos 's não são independentes. di2

Respostas:

18

Confira a Modelagem de Mistura Gaussiana Explorando a Distância Mahalanobis ( link alternativo ). Veja a página 13, Segunda coluna. Os autores também deram algumas provas também para derivar a distribuição. A distribuição é beta escalada. Informe-me se isso não estiver funcionando para você. Caso contrário, eu poderia verificar qualquer dica no livro da SS Wilks amanhã.

vinux
fonte
4
A resposta dada no artigo é: . Obrigado! n(n1)2di2(X¯,S)B(p2,np12)
Stask
9

Existem 3 distribuições relevantes. Como observado, se os parâmetros populacionais verdadeiros forem usados, a distribuição será qui-quadrado com . Essa também é a distribuição assintótica com parâmetros estimados e grande tamanho de amostra.df=p

Outra resposta fornece a distribuição correta para a situação mais comum, com parâmetros estimados quando a própria observação faz parte do conjunto de estimativas: No entanto, se a observaçãoxifor independente das estimativas de parâmetro, a distribuição será proporcional à distribuição da razão F de Fisher: (nd2(n-p)

n(d2)(n1)2Beta(p2,(np1)2).
xi
(nd2(np)(p(n1)(n+1))F(p,np)
Joe Sullivan
fonte
Bem-vindo ao site, @JoeSullivan. Tomei a liberdade de usar para facilitar a leitura de suas equações. Certifique-se de que eles ainda digam o que você deseja. LATEX
gung - Restabelece Monica
você pode dar uma referência para a fórmula F?
eyaler
1
uma referência relacionada, seção 3 em Hardin, Johanna e David M. Rocke. 2005. “The Distribution of Robust Distances.” Jornal de Estatísticas Computacionais e Gráficas 14 (4): 928–46. doi: 10.1198 / 106186005X77685.
Josef