Gostaria de encontrar a correlação entre uma variável contínua (variável dependente) e uma variável categórica (nominal: sexo, variável independente). Os dados contínuos não são normalmente distribuídos. Antes, eu tinha calculado usando o Spearman . No entanto, me disseram que isso não está certo.
Ao pesquisar na internet, descobri que o boxplot pode fornecer uma idéia sobre o quanto eles estão associados; no entanto, procurava um valor quantificado, como o coeficiente de momento do produto de Pearson ou o Spearman . Você pode me ajudar em como fazer isso? Ou informe qual método seria apropriado?
O coeficiente bisserial de pontos seria a opção certa?
correlation
categorical-data
descriptive-statistics
biostatistics
spearman-rho
Md. Ferdous Wahid
fonte
fonte
Respostas:
O revisor deve ter-lhe dito por que o Spearman não é apropriado. Aqui está uma versão disso: sejam os dados onde é a variável medida e é o indicador de gênero, digamos que seja 0 (homem), 1 (mulher). Então, o Spearman é calculado com base nas fileiras de respectivamente. Como existem apenas dois valores possíveis para o indicador , haverá muitos empates, portanto, essa fórmula não é apropriada. Se você substituir rank por rank médio, obterá apenas dois valores diferentes, um para homens e outro para mulheres. Então( Z i , I i ) Z I ρ Z , I I ρρ (Zi,Ii) Z I ρ Z,I I ρ se tornará basicamente uma versão redimensionada das classificações médias entre os dois grupos. Seria mais simples (mais interpretável) simplesmente comparar os meios! Outra abordagem é a seguinte.
Sejam as observações da variável contínua entre homens, iguais entre as mulheres. Agora, se a distribuição de e de for a mesma, será 0,5 (vamos supor que a distribuição seja puramente absolutamente contínua, portanto, não há vínculos). No caso geral, defina onde é um sorteio aleatório entre homens, entre mulheres. Podemos estimar da nossa amostra? Forme todos os pares (assuma que não há laços) e conte quantos temos "o homem é maior" ( ) (Y 1 , … , Y m X Y P ( X > Y ) θ = P ( X > Y ) X Y θ ( X i , Y j ) X i > Y j M X i < Y j W θ MX1,…,Xn Y1,…,Ym X Y P(X>Y)
fonte
Estou tendo o mesmo problema agora. Ainda não vi ninguém referenciar isso, mas estou pesquisando a Correlação Ponto-Biserial, que é construída a partir do coeficiente de correlação de Pearson. É média para uma variável contínua e uma variável dicotômica.
Leitura rápida: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php
Eu uso R, mas acho que o SPSS tem ótima documentação.
fonte
Parece que a comparação mais apropriada seria comparar as medianas (como não é normal) e a distribuição entre as categorias binárias. Eu sugeriria o teste não paramétrico de Mann-Whitney ...
fonte
Para o problema especificado, medir a curva Área sob a curva de uma característica do operador do receptor pode ajudar.
Eu não sou especialista nisso, então tento simplificá-lo. Por favor, comente sobre qualquer erro ou interpretação errada, para que eu possa alterá-lo.
A declaração acima é calculada com a área sob a curva.
Exemplo de boa correlação (direita) e anti-correlação justa (esquerda).
fonte
você deve usar uma tendência linear alternativa à independência. se você não souber, pode estudar uma introdução à análise de dados categóricos na página 41.
fonte