Estou tentando encontrar a correlação entre uma variável dicotômica e uma variável contínua.
Do meu trabalho de base sobre isso, descobri que tenho que usar o teste t independente e a pré-condição para isso é que a distribuição da variável tenha que ser normal.
Realizei o teste de Kolmogorov-Smirnov para testar a normalidade e descobri que a variável contínua não é normal e está inclinada (para cerca de 4.000 pontos de dados).
Fiz o teste de Kolmogorov-Smirnov para toda a gama de variáveis. Devo dividi-los em grupos e fazer o teste? Ou seja, diga se eu tenho risk level
( 0
= Não arriscado, 1
= Arriscado) e níveis de colesterol, então devo:
Divida-os em dois grupos, como
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Levá-los juntos e aplicar o teste? (Eu o executei apenas em todo o conjunto de dados.)
Depois disso, que teste devo fazer se ainda não estiver normal?
EDIT: O cenário acima foi apenas uma descrição que tentei fornecer para o meu problema. Eu tenho um conjunto de dados que contém mais de 1000 variáveis e cerca de 4000 amostras. Eles são contínuos ou categóricos por natureza. Minha tarefa é prever uma variável dicotômica com base nessas variáveis (talvez venha com um modelo de regressão logística). Por isso, pensei que a investigação inicial envolveria encontrar a correlação entre dicotômica e uma variável contínua.
Eu estava tentando ver como a distribuição das variáveis é e, portanto, tentei fazer o teste t. Aqui eu encontrei a normalidade como um problema. O teste de Kolmogorov-Smirnov deu um valor de significância de 0,00 na maioria dessas variáveis.
Devo assumir a normalidade aqui? A assimetria e curtose dessas variáveis também mostram que os dados são inclinados (> 0) em quase todos os casos.
De acordo com a nota abaixo, investigarei a correlação ponto-biserial ainda mais. Mas sobre a distribuição de variáveis ainda não tenho certeza.
fonte
Respostas:
Eu estou um pouco confuso; seu título diz "correlação", mas sua postagem se refere a testes t. Um teste t é um teste de localização central - mais especificamente, a média de um conjunto de dados é diferente da média de outro conjunto? A correlação, por outro lado, mostra a relação entre duas variáveis. Existem várias medidas de correlação, parece que a correlação ponto-biserial é apropriada no seu caso.
Você está certo de que um teste t assume normalidade; no entanto, é provável que os testes de normalidade dêem resultados significativos mesmo para não normalidades triviais com um N de 4000. Os testes T são razoavelmente robustos a desvios modestos da normalidade se as variações dos dois conjuntos de dados forem aproximadamente iguais e a amostra tamanhos aproximadamente iguais. Mas um teste não paramétrico é mais robusto para os valores extremos e a maioria deles tem potência quase tão alta quanto o teste t, mesmo que as distribuições sejam normais.
No entanto, no seu exemplo, você usa o "colesterol" como sendo arriscado ou não. Esta é quase certamente uma má ideia. Dicotomizar uma variável contínua invoca o pensamento mágico. Diz que, em algum momento, o colesterol passa de "não arriscado" para "arriscado". Suponha que você tenha usado 200 como ponto de corte - então você está dizendo que alguém com colesterol 201 é como alguém com 400 e alguém com 199 é como alguém com 100. Isso não faz sentido.
fonte
Vamos simplificar as coisas. Com N = 4.000 para o nível de colesterol, você não deve ter problemas com seus resultados serem influenciados por discrepantes. Portanto, você pode usar a correlação em si, como está implícito na sua frase inicial. Não fará muita diferença se você avalia a correlação pelo método de Pearson, Spearman ou Point-Biserial.
Se, em vez disso, você realmente precisa expressar os resultados em termos de diferença típica de colesterol entre os grupos de alto e baixo risco, o teste U de Mann-Whitney é adequado, mas você também pode usar o teste t mais informativo . Com esse N (e novamente, com discrepâncias astronômicas algo que você sem dúvida pode descartar), você não precisa se preocupar que a falta de normalidade comprometa seus resultados.
fonte