Desenhamos amostras, cada uma do tamanho , independentemente de uma distribuição Normal .
Das amostras, escolhemos as 2 amostras que têm a maior correlação (absoluta) de Pearson entre si.
Qual é o valor esperado dessa correlação?
Obrigado [PS Isto não é lição de casa]
Respostas:
Encontrei o seguinte artigo, que trata desse problema: Jiang, Tiefeng (2004). As distribuições assintóticas das maiores entradas das matrizes de correlação de amostras. Os Anais da Probabilidade Aplicada, 14 (2), 865-880
Jiang mostra a distribuição assintótica da estatística , onde ρ i j é a correlação entre o i e o j ésimo vetores aleatórios de comprimento n (com i ≠ j ), éLn=max1≤i<j≤N|ρij| ρij i j n i≠j
onde a = lim n → ∞ n / N existe no papel e N é uma função de n .
Aparentemente, esse resultado é válido para
qualquer distribuição dedistribuição com um número suficiente de momentos finitos ( Editar: Veja o comentário do @ cardinal abaixo). Jiang ressalta que essa é uma distribuição de valor extremo do Tipo I. A localização e a escala sãoO valor esperado da distribuição EV tipo-I é , onde γ indica a constante de Euler. No entanto, como observado nos comentários, a convergência na distribuição não garante, por si só, a convergência dos meios àquela da distribuição limitadora.μ+σγ γ
Se pudéssemos mostrar esse resultado nesse caso, então o valor esperado assintótico de serianL2n-4logn+log(log(n))
Observe que isso daria o valor esperado assintótico da maior correlação ao quadrado, enquanto a pergunta pedia o valor esperado da maior correlação absoluta. Portanto, não 100%, mas perto.
Fiz algumas breves simulações que me levaram a pensar: 1) há um problema com minha simulação (provável), 2) há um problema com minha transcrição / álgebra (também provável) ou 3) a aproximação não é válida para o valores de e N I utilizados. Talvez o OP possa pesar alguns resultados de simulação usando essa aproximação?n N
fonte
Além da resposta fornecida por @jmtroos, abaixo estão os detalhes da minha simulação e uma comparação com a derivação de @ jmtroos da expectativa de Jiang (2004) , ou seja:
Os valores dessa expectativa parecem estar acima dos valores simulados para pequenasN e abaixo para grandes N e eles parecem divergir levemente N aumenta. Contudo, as diferenças diminuem para aumentarn , como seria de esperar, como o artigo afirma que a distribuição é assintótica. Eu tentei váriosn ∈ [ 100 , 500 ] . A simulação abaixo usan = 200 . Sou bastante novo em R, portanto, quaisquer sugestões ou sugestões para melhorar meu código serão muito bem-vindas.
fonte