Por que a correlação não é muito útil quando uma das variáveis é categórica?

14

Isso é um pouco complicado, por favor, me ajude a ver se estou entendendo mal esse conceito e de que maneira.

Eu tenho um entendimento funcional da correlação, mas estou me sentindo um pouco apreensivo para realmente explicar com confiança os princípios por trás desse entendimento funcional.

Pelo que entendi, a correlação estatística (em oposição ao uso mais geral do termo) é uma maneira de entender duas variáveis contínuas e a maneira pela qual elas aumentam ou não tendem a aumentar ou diminuir de maneiras semelhantes.

O motivo pelo qual você não pode executar correlações em, digamos, uma variável contínua e uma variável categórica é porque não é possível calcular a covariância entre as duas, pois a variável categórica por definição não pode produzir uma média e, portanto, não pode nem entrar na primeira. etapas da análise estatística.

Isso está certo?

correlation categorical-data covariance Toof
fonte

2

Aqui são digitados até palestras slides de uma classe I ensinam principalmente lidando com a população (não amostra) correlação e covariância people.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf

Taylor

3

Razão simples, imagine que você pergunte às pessoas "qual é a sua cor favorita?" e eles respondem "vermelho", "verde", "azul", "laranja", "amarelo", ..., o que é codificado em seu conjunto de dados como 1, 2, 3, ... Em seguida, você calcula o coeficiente de correlação entre variável com satisfação no trabalho e obter valor 0,21. O que isso significa? Você poderia fornecer alguma interpretação significativa?

Tim

2

Intimamente relacionado (talvez até mesmo uma duplicata?) - Correlação entre a nominal (IV) e uma variável contínua (DV)

Silverfish

@ Taylor: O que usamos quando as duas variáveis são contínuas / numéricas, mas uma delas é estocástica e a outra não é, por exemplo, horas estudadas vs GPA?

MSIS

16

A correlação é a padronizada covariância, ou seja, a covariância de e dividida pelo desvio padrão de e . Deixe-me ilustrar isso. $x$ $y$ $x$ $y$

Em termos gerais, as estatísticas podem ser resumidas como ajustando modelos aos dados e avaliando quão bem o modelo descreve esses pontos de dados ( Resultado = Modelo + Erro ). Uma maneira de fazer isso é calcular as somas de desvios ou resíduos (res) do modelo:

$res= \sum(x_{i}-\bar{x})$

Muitos cálculos estatísticos são baseados nisso, incl. o coeficiente de correlação (veja abaixo).

Aqui está um exemplo de conjunto de dados criado em R(os resíduos são indicados como linhas vermelhas e seus valores adicionados ao lado):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

Observando cada ponto de dados individualmente e subtraindo seu valor do modelo (por exemplo, a média; neste caso X=11e Y=5.4), pode-se avaliar a precisão de um modelo. Pode-se dizer que o modelo superestimou / subestimou o valor real. No entanto, ao resumir todos os desvios do modelo, o erro total tende a ser zero , os valores se cancelam porque existem valores positivos (o modelo subestima um ponto de dados específico) e valores negativos (o modelo superestima um dado específico ponto). Para resolver esse problema, as somas dos desvios são ao quadrado e agora denominadas somas dos quadrados ( ): $SS$

$SS = \sum(x_i-\bar{x})(x_i-\bar{x}) = \sum(x_i-\bar{x})^2$

A soma dos quadrados é uma medida do desvio do modelo (ou seja, a média ou qualquer outra linha ajustada a um determinado conjunto de dados). Não é muito útil para interpretar o desvio do modelo (e compará-lo com outros modelos), pois depende do número de observações. Quanto mais observações, maiores as somas dos quadrados. Isso pode ser resolvido dividindo as somas do quadrado com . A variação da amostra resultante ( ) torna-se o "erro médio" entre a média e as observações e, portanto, é uma medida de quão bem o modelo se encaixa (isto é, representa) os dados: $n-1$ $s^2$

$s^2 = \frac{SS}{n-1} = \frac{\sum(x_i-\bar{x})(x_i-\bar{x})}{n-1} = \frac{\sum(x_i-\bar{x})^2}{n-1}$

Por conveniência, a raiz quadrada da variação da amostra pode ser obtida, o que é conhecido como desvio padrão da amostra:

$s=\sqrt{s^2}=\sqrt{\frac{SS}{n-1}}=\sqrt{\frac{\sum(x_i-\bar{x})^2}{n-1}}$

Agora, a covariância avalia se duas variáveis estão relacionadas entre si. Um valor positivo indica que, conforme uma variável se desvia da média, a outra variável se desvia na mesma direção.

$cov_{x,y}= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{n-1}$

Ao padronizar, expressamos a covariância por desvio padrão da unidade, que é o coeficiente de correlação de Pearson . Isso permite comparar variáveis entre si que foram medidas em unidades diferentes. O coeficiente de correlação é uma medida da força de um relacionamento que varia de -1 (uma correlação negativa perfeita) a 0 (sem correlação) e +1 (uma correlação positiva perfeita). $r$

$r=\frac{cov_{x,y}}{s_x s_y} = \frac{\sum(x_1-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}$

Nesse caso, o coeficiente de correlação de Pearson é , o que pode ser considerado uma correlação forte (embora isso também seja relativo, dependendo do campo de estudo). Para verificar isso, aqui outro gráfico no eixo xe no eixo y: $r=0.87$ XY

Para encurtar a história, sim, seu sentimento está certo, mas espero que minha resposta possa fornecer algum contexto.

Stefan
fonte

1

Isso é super útil - ao tentar aprofundar meu próprio entendimento, acho que se não posso explicar o suficiente para alguém sem formação em estatística, não o entendo tão bem quanto pensei.

Toof

8

Você está (quase) certo. A covariância (e, portanto, a correlação também) pode ser calculada apenas entre variáveis numéricas. Isso inclui variáveis contínuas, mas também variáveis numéricas discretas.

As variáveis categóricas podem ser usadas para calcular a correlação apenas com um código numérico útil para elas, mas isso provavelmente não terá uma vantagem prática - talvez possa ser útil para algumas variáveis categóricas de dois níveis, mas é provável que outras ferramentas sejam mais adequadas.

Pere
fonte

Para adicionar ao ponto de pere, o coeficiente de correlação do momento do produto Pearson representa o grau de uma relação linear entre as duas variáveis. Medidas não paramétricas como rho de Spearman ou caracterizar tau de Kendall quanto de uma tendência existe para X e Y para aumentar ou diminuir juntos (se comportar em um grau como uma relação monótona que não precisa ser necessariamente linear.

Michael R. Chernick

@ Pere: O que usamos quando temos duas variáveis contínuas, mas apenas uma delas é estocástica, por exemplo, horas exercidas versus peso.?

MSIS

1

@ MSIS - Essa deve ser uma pergunta diferente, mas a correlação pode ser usada mesmo que uma variável não seja aleatória.

Pere

1

@Pere: perguntei, caso você esteja interessado: stats.stackexchange.com/questions/435257/…

MSIS

3

Não há absolutamente nada de errado em correlações de computação em que uma das variáveis é categórica. Uma forte correlação positiva implicaria que ativar ou desativar sua variável categórica, dependendo da convenção, causa um aumento na resposta. Por exemplo, isso pode acontecer ao calcular uma regressão logística em que as variáveis são categóricas: prever a chance de um ataque cardíaco, dadas as comorbidades dos pacientes, como diabetes e IMC. Nesse caso, o IMC teria uma correlação muito forte com ataques cardíacos. Você conclui que isso não é útil?

Alex R.
fonte

Por que a correlação não é muito útil quando uma das variáveis ​​é categórica?

Respostas:

Por que a correlação não é muito útil quando uma das variáveis é categórica?