Sei que isso provavelmente já foi discutido em outro lugar, mas não consegui encontrar uma resposta explícita. Estou tentando usar a fórmula para calcular fora da amostra de um modelo de regressão linear, em que é a soma dos resíduos quadrados e é a soma total dos quadrados. Para o conjunto de treinamento, é claro que
E o conjunto de testes? Devo continuar usando fora da amostra ou usar ?
Descobri que, se eu usar , o resultante poderá ser negativo às vezes. Isso é consistente com a descrição da função do sklearn , onde eles usaram (que também é usado pela função do linear_model para testar amostras). Eles afirmam que "um modelo constante que sempre prediz o valor esperado de y, desconsiderando os recursos de entrada, obteria uma pontuação de R ^ 2 de 0,0".r2_score()
score()
No entanto, em outros lugares, as pessoas usaram como aqui e aqui (a segunda resposta por dmi3kno). Então, eu queria saber o que faz mais sentido? Qualquer comentário será muito apreciado!