Hipervolume do contorno

8

Estou procurando o valor assintótico ( n ) de (o logaritmo do determinante) da covariância da α % de observações com a menor distância euclidiana da origem em uma amostra de tamanho n extraída de, digamos, uma bivariada gaussiano padrão.

- O hiper-volume de uma elipse é proporcional ao determinante de sua matriz de covariância, daí o título.

--Por padrão gaussiano bivariado, quero dizer N2(0 02,EuEu2) onde0 02 é um vetor de 0 de comprimento 2 eEuEu2 é a matriz de identidade rank 2 .---

É fácil ver por simulações do que quando α=52/70 o número é de cerca de -1,28 :

library(MASS)
n<-10000
p<-2
x<-mvrnorm(n,rep(0,p),diag(2))
h<-ceiling(0.714286*n)
p<-ncol(x)
w<-mahalanobis(x,rep(0,p),diag(p),inverted=TRUE) #These are eucledian distances, because the covariance used is the identity matrix
s<-(1:n)[order(w)][1:h]
log(det(cov(x[s,])))

mas não me lembro de como obter uma expressão exata (ou, na sua falta, uma melhor aproximação) para isso.

user603
fonte
1
No seu texto, você não diz nada sobre os parâmetros da distribuição bivariada. Além disso, parece que seu código é sobre Mahalanobis d, não euclidiano d.
ttnphns
1
Por gaussiano padrão, quero dizer aquele centrado na origem e com covariância de identidade (vou editar isso em). Distância de Mahalanobis em relação à matriz de covariância de identidade == Distâncias eucledianas.
user603
1
Se você estiver usando código ou buscando ajuda com código, indique qual idioma ou programa você está usando.
wolfies

Respostas:

7

Ok, essa pergunta parece surgir de tempos em tempos, então eu acho que vou dar uma resposta geral.

Em [1], os autores mostram que se com Σ simétrica definida, e positivo S αxxEuNp(μμ,ΣΣ),Eu=1,,nΣSα

(0)Sα={Eu:(xxEu-μμ)Σ-1(xxEu-μμ)qα}

para eqα=χp2(α),0 0<α1

(1)Cα=covEuSαxxEu

Então, assintoticamente, converge para l α Σ ondeCαeuαΣ

2)euα=Fχp+22(qα)α

Essa aproximação é realmente boa (aqui para alpha = 60/70):

library(MASS)
alpha<-60/70
p<-2
n<-1000000

radius<-sqrt(qchisq(alpha,df=p))
x0<-mvrnorm(n,rep(0,p),diag(p),empirical=TRUE)
Id<-which(rowSums(x0*x0)<=radius**2)
cov(x0[Id,])

qalpa<-qchisq(alpha,p)
diag(1/(alpha/(pchisq(qalpa,p+2))),p)

Então, finalmente, para responder à pergunta, o determinante da matriz de covariância das [ α n ] observações com a menor norma euclediana até a origem (este é o caso particular em que Σ = Iregistro[αn] e μΣ=EuEupμμ=0 00 0p

(3)pregistroFχp+22(qα)-pregistroα
  1. Croux C., Haesbroeck G. (1999). Função de influência e eficiência do estimador de matriz dispersa determinante de covariância mínima. Revista de Análise Multivariada. 71. 161-190.
user603
fonte