Correlação entre variável dicotômica e contínua

10

Estou tentando encontrar a correlação entre uma variável dicotômica e uma variável contínua.

Do meu trabalho de base sobre isso, descobri que tenho que usar o teste t independente e a pré-condição para isso é que a distribuição da variável tenha que ser normal.

Realizei o teste de Kolmogorov-Smirnov para testar a normalidade e descobri que a variável contínua não é normal e está inclinada (para cerca de 4.000 pontos de dados).

Fiz o teste de Kolmogorov-Smirnov para toda a gama de variáveis. Devo dividi-los em grupos e fazer o teste? Ou seja, diga se eu tenho risk level( 0= Não arriscado, 1= Arriscado) e níveis de colesterol, então devo:

  • Divida-os em dois grupos, como

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • Levá-los juntos e aplicar o teste? (Eu o executei apenas em todo o conjunto de dados.)

Depois disso, que teste devo fazer se ainda não estiver normal?

EDIT: O cenário acima foi apenas uma descrição que tentei fornecer para o meu problema. Eu tenho um conjunto de dados que contém mais de 1000 variáveis ​​e cerca de 4000 amostras. Eles são contínuos ou categóricos por natureza. Minha tarefa é prever uma variável dicotômica com base nessas variáveis ​​(talvez venha com um modelo de regressão logística). Por isso, pensei que a investigação inicial envolveria encontrar a correlação entre dicotômica e uma variável contínua.

Eu estava tentando ver como a distribuição das variáveis ​​é e, portanto, tentei fazer o teste t. Aqui eu encontrei a normalidade como um problema. O teste de Kolmogorov-Smirnov deu um valor de significância de 0,00 na maioria dessas variáveis.

Devo assumir a normalidade aqui? A assimetria e curtose dessas variáveis ​​também mostram que os dados são inclinados (> 0) em quase todos os casos.

De acordo com a nota abaixo, investigarei a correlação ponto-biserial ainda mais. Mas sobre a distribuição de variáveis ​​ainda não tenho certeza.

Sree Aurovindh
fonte
11
A correlação (de qualquer espécie) entre uma variável contínua e binária (grupo) não é muito mais (e talvez menos ...) do que apenas uma comparação de médias (algum tipo de média ...) entre os grupos, então geralmente deveria ser melhor fazer isso!
b Kjetil Halvorsen

Respostas:

14

Eu estou um pouco confuso; seu título diz "correlação", mas sua postagem se refere a testes t. Um teste t é um teste de localização central - mais especificamente, a média de um conjunto de dados é diferente da média de outro conjunto? A correlação, por outro lado, mostra a relação entre duas variáveis. Existem várias medidas de correlação, parece que a correlação ponto-biserial é apropriada no seu caso.

Você está certo de que um teste t assume normalidade; no entanto, é provável que os testes de normalidade dêem resultados significativos mesmo para não normalidades triviais com um N de 4000. Os testes T são razoavelmente robustos a desvios modestos da normalidade se as variações dos dois conjuntos de dados forem aproximadamente iguais e a amostra tamanhos aproximadamente iguais. Mas um teste não paramétrico é mais robusto para os valores extremos e a maioria deles tem potência quase tão alta quanto o teste t, mesmo que as distribuições sejam normais.

No entanto, no seu exemplo, você usa o "colesterol" como sendo arriscado ou não. Esta é quase certamente uma má ideia. Dicotomizar uma variável contínua invoca o pensamento mágico. Diz que, em algum momento, o colesterol passa de "não arriscado" para "arriscado". Suponha que você tenha usado 200 como ponto de corte - então você está dizendo que alguém com colesterol 201 é como alguém com 400 e alguém com 199 é como alguém com 100. Isso não faz sentido.

Peter Flom - Restabelece Monica
fonte
2
Eu concordo, e acho que a maioria de nós concorda, que a dicotomização desperdiça informações e que pode ser um método grosseiro, grosseiro ou desajeitado. Eu apenas acho que o argumento do "pensamento mágico" exagera um pouco. Optar por encobrir uma diferença não é o mesmo que acreditar que não há diferença. Espero que haja momentos pela frente, quando achar conveniente e valer a pena trocar categorias de alguma variável contínua, seja para fins analíticos ou de relatório. Apenas meus 2 centavos.
Rolando2
2
R2
6

Vamos simplificar as coisas. Com N = 4.000 para o nível de colesterol, você não deve ter problemas com seus resultados serem influenciados por discrepantes. Portanto, você pode usar a correlação em si, como está implícito na sua frase inicial. Não fará muita diferença se você avalia a correlação pelo método de Pearson, Spearman ou Point-Biserial.

Se, em vez disso, você realmente precisa expressar os resultados em termos de diferença típica de colesterol entre os grupos de alto e baixo risco, o teste U de Mann-Whitney é adequado, mas você também pode usar o teste t mais informativo . Com esse N (e novamente, com discrepâncias astronômicas algo que você sem dúvida pode descartar), você não precisa se preocupar que a falta de normalidade comprometa seus resultados.

rolando2
fonte
Obrigado pela sua resposta. Mas se eu tiver que saber sobre os valores extremos faz uma grande distorção, é correto usar curtose e assimetria para detectá-lo? Caso isso seja verdade acima de quais valores de curtose e assimetria devo assumir que a distribuição não é normal. Obrigado pela sua resposta
Sree Aurovindh
Suponho, com base no conhecimento limitado do conteúdo, que, com o colesterol, você não terá valores que sejam muitas ordens de magnitude maiores que os outros. É por isso que acho que você pode usar um método paramétrico, como correlação ou teste t. Não é que eu ache a distribuição normal. Você não precisa que isso seja normal. A propósito, à luz da resposta de Peter: eu acreditava (e espero) que você tivesse alguma fonte do status Alto / Baixo risco que fosse independente da pontuação do colesterol. Concordo que provavelmente não é útil dicotomizar.
Rolando2
2
Posso sugerir que você adicione uma seção à sua pergunta original, marcada "EDIT: ....", que especifica quais perguntas permanecem para você que não foram abordadas pelas respostas e comentários que você recebeu até agora.
Rolando2
Obrigado por seus suggestion.I ter atualizado o mesmo .Sorry para a pergunta ambígua em primeiros place.Thanks
Sree Aurovindh