Uma das postagens vinculadas acima alude ao uso de um teste de razão de verossimilhança, embora seus modelos precisem ser aninhados um para o outro para que funcione (ou seja, todos os parâmetros em um dos modelos devem estar presentes no modelo em que você está testando) .
O RMSE é claramente uma medida de quão bem o modelo se ajusta aos dados. No entanto, o mesmo acontece com a razão de verossimilhança. A probabilidade de uma determinada pessoa, diz a Sra. Chen, é a probabilidade de uma pessoa com todos os seus parâmetros ter o resultado que obteve. A probabilidade conjunta do conjunto de dados é a probabilidade da Sra. Chen * A probabilidade da Sra. Gundersen * A probabilidade da Sra. Johnson * ... etc.
Adicionar uma covariável, ou qualquer número de covariáveis, não pode realmente piorar a taxa de probabilidade, não acho. Mas pode melhorar a taxa de probabilidade em uma quantidade não significativa. Modelos que se encaixam melhor terão uma probabilidade maior. Você pode testar formalmente se o modelo A se encaixa melhor no modelo B. Você deve ter algum tipo de função de teste LR disponível em qualquer software que use, mas basicamente, a estatística do teste LR é -2 * a diferença dos logs das probabilidades, e é distribuído qui-quadrado com df = a diferença no número de parâmetros.
Além disso, comparar o AIC ou BIC dos dois modelos e encontrar o mais baixo também é aceitável. AIC e BIC são basicamente as probabilidades de log penalizadas pelo número de parâmetros.
Não tenho certeza sobre o uso de um teste t para os RMSEs, e na verdade eu me apoiaria a menos que você possa encontrar algum trabalho teórico que tenha sido feito na área. Basicamente, você sabe como os valores do RMSE são distribuídos assintoticamente? Não tenho certeza. Algumas discussões adicionais aqui:
http://www.stata.com/statalist/archive/2012-11/index.html#01017