Valores médios de correlação

20

Digamos que eu teste como a variável Ydepende da variável Xsob diferentes condições experimentais e obtenho o seguinte gráfico:

insira a descrição da imagem aqui

As linhas de traço no gráfico acima representam regressão linear para cada série de dados (configuração experimental) e os números na legenda indicam a correlação de Pearson de cada série de dados.

Eu gostaria de calcular a "correlação média" (ou "correlação média") entre Xe Y. Posso simplesmente calcular a média dos rvalores? E o "critério médio de determinação", ? Devo calcular a média e, em seguida, calcular o quadrado desse valor ou devo calcular a média dos individuais ?R 2R2rR2

Boris Gorelik
fonte

Respostas:

15

A maneira mais simples é adicionar uma variável categórica para identificar as diferentes condições experimentais e incluí-la em seu modelo juntamente com uma "interação" com x ; isto é, y ~ z + X # z . Isso realiza todas as cinco regressões ao mesmo tempo. Sua R 2 é o que você quer.zxyz+x#zR2

Para ver por que a média dos valores individuais de pode estar errada, suponha que a direção da inclinação seja invertida em algumas condições experimentais. Você calcula a média de um monte de 1 e -1 para cerca de 0, o que não reflete a qualidade de nenhum dos ajustes. Para ver por média R 2 (ou qualquer transformação fixo dela) não está certo, supor que na maioria das condições experimentais que tinha apenas duas observações, de modo que seu R 2 todos iguais 1 , mas em um experimento que tinha uma centena de observações com R 2 = 0 . A média R 2 de quase 1 não reflectiriam correctamente a situação.RR2R21R2=0R2

whuber
fonte
1
perdoe minha ignorância, mas o que significa o sinal # na sua resposta?
Boris Gorelik
1
Eu acho que sua resposta é muito boa para a definição implícita de correlação usada. E se eles o quisessem como inclinação padronizada média (talvez implícita na figura)? Nesse caso, você deseja que negativos e positivos sejam cancelados. Você está preocupado com a questão do tamanho da amostra. Além disso, considere mover seu comentário para sua resposta.
John
Você quer que o ou ajustado R 2 ? R2R2
22413 russellpierce
±1R21
R2R21
24

Para os coeficientes de correlação de Pearson, geralmente é apropriado transformar os valores de r usando uma transformação de Fisher z . Em seguida, calcule a média dos valores z e converta a média novamente em um valor r .

Eu imagino que seria bom para um coeficiente de Spearman também.

Aqui está um artigo e a entrada da Wikipedia .

Amyunimus
fonte
1
+1; Essa resposta parece mais apropriada e geral do que a resposta aceita, no entanto, no caso de uso específico, ela não desmoronaria para os valores de r de 1? É algo como um logit empírico razoável aqui, onde seria apenas "adicionado" um ponto de dados que não possui correlação? Em caso afirmativo, onde alguém o adicionaria? Alguém teria que conduzir um monte carlo sim pegando duas variáveis ​​aleatórias das distribuições de origem? Como alternativa, basta ajustar r para algum valor um pouco menor que 1? Até que ponto devemos ajustar?
22613 russellpierce
3

A correlação média pode ser significativa. Considere também a distribuição de correlações (por exemplo, plote um histograma).

n

m

Karl
fonte
1

Que tal usar o MSPE (erro quadrado previsto médio) para o desempenho do algoritmo? Essa é uma abordagem padrão para o que você está tentando fazer, se estiver tentando comparar o desempenho preditivo entre um conjunto de algoritmos.

Estatísticas
fonte
Não sei por que esse post stats.stackexchange.com/questions/17129/… foi mesclado com este. Na verdade, eles estão fazendo duas perguntas diferentes - existem dois objetivos diferentes.
StatsStudent
1
Você está correto: são perguntas diferentes. Votei em reabrir a outra postagem (embora o efeito que isso possa ter não seja claro). Peço desculpas por não ter visto seu comentário: se você tivesse sinalizado esse post, ele teria chegado a nossa atenção vários anos antes!
whuber