Valor esperado da correlação espúria

12

Desenhamos N amostras, cada uma do tamanho n , independentemente de uma distribuição Normal (μ,σ2) .

Das N amostras, escolhemos as 2 amostras que têm a maior correlação (absoluta) de Pearson entre si.

Qual é o valor esperado dessa correlação?

Obrigado [PS Isto não é lição de casa]

P Sellaz
fonte
2
(+1) Seria uma pergunta bastante desafiadora para a lição de casa :-). Você precisa de uma resposta geral ou poderia (talvez) concentrar sua atenção em valores específicos de ou n ? Por exemplo, pode ser possível desenvolver boas aproximações quando n for muito maior que N ; seriam necessárias aproximações diferentes em outros casos. NnnN
whuber
1
Eu estava esperando por uma resposta geral, mas onde a suposição seria OK! Para valores específicos de N e n , não seria tão interessante, pois posso ver casos específicos por simulação (é o que estou fazendo no momento), mas ainda pode ser interessante. n>>NNn
P # # # # # Sellaz #
1
Eu acho que uma solução geral de qualquer utilidade real provavelmente é improvável, embora eu possa estar enganado. Está bastante relacionado a alguns problemas em aberto na interface da geometria e da álgebra linear. Em aplicações, a necessidade de informações sobre tais quantidades surge, por exemplo, em sensores compactados.
cardeal
1
FWIW, este é o resultado de uma simulação que acabei de executar: usando Normal (0,1), descobri que a correlação média, (acima de 1000 simulações) e o número de amostras N são aproximadamente relacionados por ρ = 0,025 + 0,113 ln ( N ) - 0,008 ln ( N ) 2 para n = 100 e 4 N nρN
ρ=0.025+0.113ln(N)-0,008em(N)2
n=1004Nnusando um modelo de regressão linear. O ajuste do modelo e o diagnóstico usual foram muito bons. Também descobri que a correlação média era distribuída aproximadamente normalmente (embora levemente inclinada para a direita).
P Sellaz

Respostas:

9

Encontrei o seguinte artigo, que trata desse problema: Jiang, Tiefeng (2004). As distribuições assintóticas das maiores entradas das matrizes de correlação de amostras. Os Anais da Probabilidade Aplicada, 14 (2), 865-880

Jiang mostra a distribuição assintótica da estatística , onde ρ i j é a correlação entre o i e o j ésimo vetores aleatórios de comprimento n (com i j ), éLn=max1i<jN|ρij|ρijijnij

onde a = lim n n / N existe no papel e N é uma função de n .

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
a=limnn/NNn

Aparentemente, esse resultado é válido para qualquer distribuição de distribuição com um número suficiente de momentos finitos ( Editar: Veja o comentário do @ cardinal abaixo). Jiang ressalta que essa é uma distribuição de valor extremo do Tipo I. A localização e a escala são

σ=2,μ=2log(1a28π).

O valor esperado da distribuição EV tipo-I é , onde γ indica a constante de Euler. No entanto, como observado nos comentários, a convergência na distribuição não garante, por si só, a convergência dos meios àquela da distribuição limitadora.μ+σγγ

Se pudéssemos mostrar esse resultado nesse caso, então o valor esperado assintótico de serianLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

Observe que isso daria o valor esperado assintótico da maior correlação ao quadrado, enquanto a pergunta pedia o valor esperado da maior correlação absoluta. Portanto, não 100%, mas perto.

Fiz algumas breves simulações que me levaram a pensar: 1) há um problema com minha simulação (provável), 2) há um problema com minha transcrição / álgebra (também provável) ou 3) a aproximação não é válida para o valores de e N I utilizados. Talvez o OP possa pesar alguns resultados de simulação usando essa aproximação?nN

jmtroos
fonte
2
E um aparte: eu realmente gostei dessa pergunta - já me perguntei sobre essa questão antes. Fiquei surpreso com a conexão com a distribuição Tipo I - achei isso muito legal. Eu só queria entender a matemática que leva até ela ...
jmtroos
1
Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
Aliás, o papel é directamente a partir daqui projecteuclid.org/DPubS/Repository/1.0/...
P Sellaz
3
(+1) Este é um artigo muito bom, e eu o examinei apenas, mas precisamos ser n/pγ(0,) ; portanto, a dimensão dos vetores deve crescer aproximadamente proporcional ao número de vetores em consideração para que esses resultados sejam mantidos. ( 2 ) Mesmo neste caso, os resultados não são válidos para "qualquer" distribuição; de fato, as condições no artigo exigem que as variáveis ​​aleatórias sejam "quase exponencialmente delimitadas" no sentido de que exigimos essencialmente que o trigésimo momento seja finito! (continuação)
3
{Ln}χ12
2

Além da resposta fornecida por @jmtroos, abaixo estão os detalhes da minha simulação e uma comparação com a derivação de @ jmtroos da expectativa de Jiang (2004) , ou seja:

E[eun2]=1n{2registro(N2n28π)+2γ+4registron-registro(registro(n))}

Os valores dessa expectativa parecem estar acima dos valores simulados para pequenas N e abaixo para grandes N e eles parecem divergir levemente Naumenta. Contudo, as diferenças diminuem para aumentarn, como seria de esperar, como o artigo afirma que a distribuição é assintótica. Eu tentei váriosn[100,500]. A simulação abaixo usan=200. Sou bastante novo em R, portanto, quaisquer sugestões ou sugestões para melhorar meu código serão muito bem-vindas.

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation
P Sellaz
fonte
Veja meus comentários para a outra resposta, que pode (ou não) ajudar a explicar algumas das discrepâncias que você observa.
cardeal