Recentemente, recebi uma revisão do meu trabalho de pesquisa e o seguinte é o comentário do revisor no meu trabalho:
os resultados obtidos em um modelo não são convincentes, especialmente a regressão linear geralmente apresenta deficiências ao lidar com valores extremos. Sugiro que os autores também tentem regressão logística e compare os resultados correspondentes com os atuais. Se observações semelhantes forem obtidas, os resultados serão mais sólidos.
O comentário do revisor está correto? A regressão logística é melhor que a regressão linear múltipla?
O problema é que minha variável dependente não é categórica, é uma variável de escala. O que eu posso fazer agora? Que outro método de regressão você recomenda para avaliar meu modelo?
A pontuação é variável dependente na tabela a seguir. Recência, frequência, posse e último escore são variáveis independentes.
Eu extraí essas variáveis de um site e suponho que essas variáveis independentes tenham efeito significativo na pontuação . Portanto, eu represento os seguintes modelos:
A propósito, o valor de R ao quadrado para este modelo linear é 0,316! O revisor também comentou sobre esse valor:
então os resultados não são convincentes, pois não há indicador sobre a qualidade dos coeficientes aprendidos. Um R ^ 2 pequeno não pode indicar um bom desempenho, pois o modelo pode estar excessivamente ajustado.
0,316 é muito baixo para R ao quadrado? Em artigos anteriores, vi muito os valores semelhantes.
Respostas:
orm
rms
fonte
você também pode tentar modelos de probit / logit ordenados atribuindo os valores 1, 2,3 e 4 às pontuações no primeiro, ....., quarto percentil, respectivamente.
fonte
Você pode dicotomizar (converter em uma variável binária) a pontuação. Se a pontuação for de 0 a 100, você poderá atribuir 0 a qualquer pontuação menor que 50 e 1 caso contrário. Eu nunca tinha ouvido falar antes que essa é uma boa maneira de lidar com discrepantes. Isso pode apenas esconder valores discrepantes, pois será impossível distinguir pontuações muito altas ou baixas. Isso não faz muito sentido para mim, mas você pode tentar.
Não vou fingir que sei muito sobre estatísticas, mas me parece, com base nos comentários dele, que esse revisor pode saber ainda menos.
fonte
É possível aplicar a regressão logística mesmo a uma variável dependente contínua. Faz sentido, se você quiser ter certeza de que o previsto
score
está sempre dentro[0, 100]
(julgo pelas suas capturas de tela que está na escala de 100 pontos).Para isso, basta dividir sua pontuação por 100 e executar a regressão logística com a
[0,1]
variável-alvo com base nesta , como nesta pergunta - você pode fazê-lo, por exemploR
, usandofonte