Correlações entre variáveis ​​contínuas e categóricas (nominais)

42

Gostaria de encontrar a correlação entre uma variável contínua (variável dependente) e uma variável categórica (nominal: sexo, variável independente). Os dados contínuos não são normalmente distribuídos. Antes, eu tinha calculado usando o Spearman . No entanto, me disseram que isso não está certo.ρ

Ao pesquisar na internet, descobri que o boxplot pode fornecer uma idéia sobre o quanto eles estão associados; no entanto, procurava um valor quantificado, como o coeficiente de momento do produto de Pearson ou o Spearman . Você pode me ajudar em como fazer isso? Ou informe qual método seria apropriado?ρ

O coeficiente bisserial de pontos seria a opção certa?

Md. Ferdous Wahid
fonte
Normalmente, não se pode aconselhar apenas com base no formato dos dados! O que os dados representam e o que você deseja alcançar com sua análise?
b Kjetil Halvorsen
11
Obrigado kjetil, eu gostaria de comparar a associação entre gênero e outras variáveis ​​contínuas. Simplesmente saber quais variáveis ​​contínuas são moderadamente / fortemente correlacionadas e quais variáveis ​​não são.
Md. Ferdous Wahid
11
Parece uma duplicata do stats.stackexchange.com/questions/25229/… Você pode nos dizer se as respostas para essa pergunta o ajudam?
b Kjetil Halvorsen
Sim, minha pergunta é semelhante a isso. No entanto, recebi um feedback em que o revisor indicou que Spearman's não é apropriado. O tamanho da minha amostra é 31. De acordo com a resposta (o link fornecido), não normal não seria um problema, e qualquer método de correlação pode ser usado (Spearman / Pearson / Point-Biserial) para o grande conjunto de dados. Também seria verdade para o pequeno conjunto de dados? A propósito, o gênero não é uma escala nominal dicotômica criada artificialmente. O link acima deve usar coeficiente de correlação biserial. ρ
Ferdous Wahid
3
Correlação entre variável nominal e de intervalo ou ordinal stats.stackexchange.com/q/73065/3277
ttnphns

Respostas:

25

O revisor deve ter-lhe dito por que o Spearman não é apropriado. Aqui está uma versão disso: sejam os dados onde é a variável medida e é o indicador de gênero, digamos que seja 0 (homem), 1 (mulher). Então, o Spearman é calculado com base nas fileiras de respectivamente. Como existem apenas dois valores possíveis para o indicador , haverá muitos empates, portanto, essa fórmula não é apropriada. Se você substituir rank por rank médio, obterá apenas dois valores diferentes, um para homens e outro para mulheres. Então( Z i , I i ) Z I ρ Z , I I ρρ(Zi,Ii)ZIρZ,IIρse tornará basicamente uma versão redimensionada das classificações médias entre os dois grupos. Seria mais simples (mais interpretável) simplesmente comparar os meios! Outra abordagem é a seguinte.

Sejam as observações da variável contínua entre homens, iguais entre as mulheres. Agora, se a distribuição de e de for a mesma, será 0,5 (vamos supor que a distribuição seja puramente absolutamente contínua, portanto, não há vínculos). No caso geral, defina onde é um sorteio aleatório entre homens, entre mulheres. Podemos estimar da nossa amostra? Forme todos os pares (assuma que não há laços) e conte quantos temos "o homem é maior" ( ) (Y 1 , , Y m X Y P ( X > Y ) θ = P ( X > Y ) X Y θ ( X i , Y j ) X i > Y j M X i < Y j W θ MX1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjM) e para quantas "a mulher é maior" ( ) ( ). Então uma estimativa amostral de é Essa é uma medida razoável de correlação! (Se houver apenas alguns laços, ignore-os). Mas não tenho certeza de como isso se chama, se tiver um nome. Este pode estar próximo: https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaXi<YjWθ
MM+W
kjetil b halvorsen
fonte
5
A correlação de classificação de Spearman é apenas a correlação de Pearson aplicada às fileiras da variável numérica e aos valores da variável binária original (a classificação não tem efeito aqui). Portanto, o rho de Spearman é o análogo de classificação da correlação ponto-biserial. Não vejo nenhum problema em usar o rho de Spearman descritivamente nessa situação.
Michael M
Michael Mayer: Sim, talvez funcione, mas existe algum motivo? Ele não fornece informações que não estão contidas em alguma diferença de meios! e isso é mais diretamente interpretável.
b Kjetil Halvorsen
11
É uma diferença nas fileiras muito mais simples de interpretar como o rho de Spearman? Mesmo assim, você diria que o rho de Spearman está errado? Triste que não vemos os revisores argumentando.
Michael M
11
O que você sugere é legal. Parece estar relacionado à estatística do teste de duas amostras de Wilcoxon, que é semelhante à correlação de Kendall entre o resultado numérico e a variável do grupo binário.
Michael M
11
θθ^1θ
8

Estou tendo o mesmo problema agora. Ainda não vi ninguém referenciar isso, mas estou pesquisando a Correlação Ponto-Biserial, que é construída a partir do coeficiente de correlação de Pearson. É média para uma variável contínua e uma variável dicotômica.

Leitura rápida: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

Eu uso R, mas acho que o SPSS tem ótima documentação.

Jon
fonte
11
Ótima referência para encontrar uma correlação entre uma variável contínua e uma variável dicotômica! No entanto, as suposições listadas são um pouco fortes.
SUNDONG 31/01
1

Parece que a comparação mais apropriada seria comparar as medianas (como não é normal) e a distribuição entre as categorias binárias. Eu sugeriria o teste não paramétrico de Mann-Whitney ...

brca1
fonte
6
Enquanto o Mann-Whitney seria uma maneira de identificar a mudança de localização em uma variável (ou mesmo formas mais gerais de dominância estocástica) através de uma variável categórica binária, o Mann-Whitney não compara medianas, pelo menos não sem suposições adicionais.
Glen_b
1

Para o problema especificado, medir a curva Área sob a curva de uma característica do operador do receptor pode ajudar.

Eu não sou especialista nisso, então tento simplificá-lo. Por favor, comente sobre qualquer erro ou interpretação errada, para que eu possa alterá-lo.

xyxxx

xx

xx

A declaração acima é calculada com a área sob a curva.

Exemplo de boa correlação (direita) e anti-correlação justa (esquerda) Exemplo de boa correlação (direita) e anti-correlação justa (esquerda).

aerijman
fonte
11
Bem-vindo ao CV! Sua resposta é um pouco curta demais e parece não ajudar a encontrar: "a correlação entre uma variável contínua (variável dependente) e uma variável categórica (nominal: sexo, variável independente)" . Você poderia editar sua resposta para incluir como o AUROC deve conseguir isso?
Frans Rodenburg
-3

você deve usar uma tendência linear alternativa à independência. se você não souber, pode estudar uma introdução à análise de dados categóricos na página 41.

Mehdi Loohs
fonte
4
Já existe uma resposta aceita. E não está claro o que sua resposta contribui. Você poderia explicar mais? Suponho que você faça referência à introdução de Agresti à análise de dados categóricos. Forneça a citação completa.
TEG - Restabelece Monica