Se eu tiver uma amostra de amostra normal multivariada e definir
Estou vendo um artigo que afirma que é , mas isso está obviamente errado: a teria sido obtida para usando o vetor médio da população (desconhecida) e matriz de covariância. Quando os análogos da amostra estão conectados, é necessário obter uma distribuição Hotelling ou uma distribuição escala , ou algo assim, mas não o . Não encontrei o resultado exato nem em Muirhead (2005) , nem em Anderson (2003) , nem em Mardia, Kent e Bibby (1979, 2003).. Aparentemente, esses caras não se incomodaram com diagnósticos extremos, pois a distribuição normal multivariada é perfeita e é facilmente obtida sempre que se coleta dados multivariados: - /.
As coisas podem ser mais complicadas do que isso. O resultado da distribuição Hotelling é baseado em assumir a independência entre a parte do vetor e a parte da matriz; essa independência vale para e , mas não vale mais para e .
Respostas:
Confira a Modelagem de Mistura Gaussiana Explorando a Distância Mahalanobis ( link alternativo ). Veja a página 13, Segunda coluna. Os autores também deram algumas provas também para derivar a distribuição. A distribuição é beta escalada. Informe-me se isso não estiver funcionando para você. Caso contrário, eu poderia verificar qualquer dica no livro da SS Wilks amanhã.
fonte
Existem 3 distribuições relevantes. Como observado, se os parâmetros populacionais verdadeiros forem usados, a distribuição será qui-quadrado com . Essa também é a distribuição assintótica com parâmetros estimados e grande tamanho de amostra.df=p
Outra resposta fornece a distribuição correta para a situação mais comum, com parâmetros estimados quando a própria observação faz parte do conjunto de estimativas: No entanto, se a observaçãoxifor independente das estimativas de parâmetro, a distribuição será proporcional à distribuição da razão F de Fisher: (nd2(n-p)
fonte