Isso é um pouco complicado, por favor, me ajude a ver se estou entendendo mal esse conceito e de que maneira.
Eu tenho um entendimento funcional da correlação, mas estou me sentindo um pouco apreensivo para realmente explicar com confiança os princípios por trás desse entendimento funcional.
Pelo que entendi, a correlação estatística (em oposição ao uso mais geral do termo) é uma maneira de entender duas variáveis contínuas e a maneira pela qual elas aumentam ou não tendem a aumentar ou diminuir de maneiras semelhantes.
O motivo pelo qual você não pode executar correlações em, digamos, uma variável contínua e uma variável categórica é porque não é possível calcular a covariância entre as duas, pois a variável categórica por definição não pode produzir uma média e, portanto, não pode nem entrar na primeira. etapas da análise estatística.
Isso está certo?
Respostas:
A correlação é a padronizada covariância, ou seja, a covariância de e dividida pelo desvio padrão de e . Deixe-me ilustrar isso.x y x y
Em termos gerais, as estatísticas podem ser resumidas como ajustando modelos aos dados e avaliando quão bem o modelo descreve esses pontos de dados ( Resultado = Modelo + Erro ). Uma maneira de fazer isso é calcular as somas de desvios ou resíduos (res) do modelo:
Muitos cálculos estatísticos são baseados nisso, incl. o coeficiente de correlação (veja abaixo).
Aqui está um exemplo de conjunto de dados criado em
R
(os resíduos são indicados como linhas vermelhas e seus valores adicionados ao lado):Observando cada ponto de dados individualmente e subtraindo seu valor do modelo (por exemplo, a média; neste casoSS
X=11
eY=5.4
), pode-se avaliar a precisão de um modelo. Pode-se dizer que o modelo superestimou / subestimou o valor real. No entanto, ao resumir todos os desvios do modelo, o erro total tende a ser zero , os valores se cancelam porque existem valores positivos (o modelo subestima um ponto de dados específico) e valores negativos (o modelo superestima um dado específico ponto). Para resolver esse problema, as somas dos desvios são ao quadrado e agora denominadas somas dos quadrados ( ):A soma dos quadrados é uma medida do desvio do modelo (ou seja, a média ou qualquer outra linha ajustada a um determinado conjunto de dados). Não é muito útil para interpretar o desvio do modelo (e compará-lo com outros modelos), pois depende do número de observações. Quanto mais observações, maiores as somas dos quadrados. Isso pode ser resolvido dividindo as somas do quadrado com . A variação da amostra resultante ( ) torna-se o "erro médio" entre a média e as observações e, portanto, é uma medida de quão bem o modelo se encaixa (isto é, representa) os dados:n - 1 s2
Por conveniência, a raiz quadrada da variação da amostra pode ser obtida, o que é conhecido como desvio padrão da amostra:
Agora, a covariância avalia se duas variáveis estão relacionadas entre si. Um valor positivo indica que, conforme uma variável se desvia da média, a outra variável se desvia na mesma direção.
Ao padronizar, expressamos a covariância por desvio padrão da unidade, que é o coeficiente de correlação de Pearson . Isso permite comparar variáveis entre si que foram medidas em unidades diferentes. O coeficiente de correlação é uma medida da força de um relacionamento que varia de -1 (uma correlação negativa perfeita) a 0 (sem correlação) e +1 (uma correlação positiva perfeita).r
Nesse caso, o coeficiente de correlação de Pearson é , o que pode ser considerado uma correlação forte (embora isso também seja relativo, dependendo do campo de estudo). Para verificar isso, aqui outro gráfico no eixo xe no eixo y:r = 0,87
X
Y
Para encurtar a história, sim, seu sentimento está certo, mas espero que minha resposta possa fornecer algum contexto.
fonte
Você está (quase) certo. A covariância (e, portanto, a correlação também) pode ser calculada apenas entre variáveis numéricas. Isso inclui variáveis contínuas, mas também variáveis numéricas discretas.
As variáveis categóricas podem ser usadas para calcular a correlação apenas com um código numérico útil para elas, mas isso provavelmente não terá uma vantagem prática - talvez possa ser útil para algumas variáveis categóricas de dois níveis, mas é provável que outras ferramentas sejam mais adequadas.
fonte
Não há absolutamente nada de errado em correlações de computação em que uma das variáveis é categórica. Uma forte correlação positiva implicaria que ativar ou desativar sua variável categórica, dependendo da convenção, causa um aumento na resposta. Por exemplo, isso pode acontecer ao calcular uma regressão logística em que as variáveis são categóricas: prever a chance de um ataque cardíaco, dadas as comorbidades dos pacientes, como diabetes e IMC. Nesse caso, o IMC teria uma correlação muito forte com ataques cardíacos. Você conclui que isso não é útil?
fonte