Eu calculei uma matriz de correlação de um conjunto de dados que contém 455 pontos de dados, cada ponto de dados contendo 14 características. Portanto, a dimensão da matriz de correlação é 14 x 14.
Fiquei me perguntando se existe um limite para o valor do coeficiente de correlação, que aponta que existe uma correlação significativa entre duas dessas características.
Eu tenho um valor que varia de -0,2 a 0,85, e eu estava pensando que os importantes são aqueles que estão acima de 0,7.
- Existe um valor geral para o coeficiente de correlação que deve ser considerado para o limiar ou é apenas um contexto dependente do tipo de dados que estou investigando?
Respostas:
Testes de significância para correlações
Existem testes de significância estatística que podem ser aplicados a correlações individuais, que indicam a probabilidade de obter uma correlação maior ou maior que a correlação da amostra, assumindo que a hipótese nula é verdadeira.
O ponto principal é que o que constitui um coeficiente de correlação estatisticamente significativo depende de:
Em circunstâncias comuns, onde alfa é 0,05, usando teste bicaudal, com correlação de Pearson, e onde normalidade é pelo menos uma aproximação adequada, o principal fator que influencia o corte é o tamanho da amostra.
cor.test
calculará a significância estatística de uma correlação em RLimiar de importância
Outra maneira de interpretar sua pergunta é considerar que você não está interessado em saber se uma correlação é estatisticamente significativa, mas se é praticamente importante.
Alguns pesquisadores ofereceram regras práticas para interpretar o significado dos coeficientes de correlação, mas essas regras práticas são específicas do domínio.
Teste de significância múltipla
Como o @ user603 apontou, esses problemas foram bem discutidos nesta pergunta anterior .
Em geral, acho útil ao interpretar uma matriz de correlação focar na estrutura de nível superior. Isso pode ser feito de maneira informal, observando padrões gerais na matriz de correlação. Isso pode ser feito de maneira mais formal, usando técnicas como PCA e análise fatorial. Tais abordagens evitam muitos dos problemas associados ao teste de significância múltipla.
fonte
Uma opção seria simulação ou teste de permutação. Se você conhece a distribuição de que seus dados vêm, você pode simular a partir dessa distribuição, mas com todas as observações independentes. Se você não conhece a distribuição, pode permutar cada uma de suas variáveis independentemente uma da outra e isso fornecerá a mesma distribuição marginal geral de cada variável, mas com qualquer correlação removida.
Execute um dos procedimentos acima (mantendo o tamanho da amostra e as dimensões da matriz iguais) várias vezes (cerca de 10.000) e observe a correlação absoluta máxima ou outro quantil alto que possa ser interessante. Isso fornecerá a distribuição a partir da hipótese nula de que você poderá comparar o máximo de suas correlações observadas reais com (e outros altos quantis de interesse).
fonte
fonte