Quando você é quem faz o trabalho, tendo consciência do que está fazendo, desenvolve uma sensação de quando superajustou o modelo. Por um lado, você pode acompanhar a tendência ou deterioração no quadrado R ajustado do modelo. Também é possível rastrear uma deterioração semelhante nos valores de p dos coeficientes de regressão das principais variáveis.
Porém, quando você acabou de ler o estudo de outra pessoa e não tem conhecimento do processo de desenvolvimento de seu modelo interno, como pode detectar claramente se um modelo está em excesso ou não.
Respostas:
A validação cruzada e a regularização são técnicas bastante comuns para evitar o ajuste excessivo. Para uma rápida análise, eu recomendaria os slides do tutorial de Andrew Moore sobre o uso da validação cruzada ( espelho ) - preste atenção especial às advertências. Para mais detalhes, leia definitivamente os capítulos 3 e 7 da EOSL , que cobrem o tópico e o assunto associado em profundidade.
fonte
Quando estou ajustando um modelo, geralmente uso critérios de informação durante o processo de ajuste, como AIC ou BIC , ou alternativamente testes de razão de verossimilhança para modelos ajustados com base na máxima probabilidade ou teste F para modelos ajustados com base em mínimos quadrados.
Todos são conceitualmente similares, pois penalizam parâmetros adicionais. Eles estabelecem um limite de "poder explicativo adicional" para cada novo parâmetro adicionado a um modelo. Eles são todos uma forma de regularização .
Para os modelos de outros, olho para a seção de métodos para ver se essas técnicas são usadas e também usamos regras práticas, como o número de observações por parâmetro - se existem cerca de 5 (ou menos) observações por parâmetro, começo a me perguntar.
Lembre-se sempre de que uma variável não precisa ser "significativa" em um modelo para ser importante. Posso ser um fator de confusão e deve ser incluído nessa base se seu objetivo é estimar o efeito de outras variáveis.
fonte
Eu sugeriria que esse é um problema de como os resultados são relatados. Não "bater o tambor bayesiano", mas abordar a incerteza do modelo de uma perspectiva bayesiana como um problema de inferência ajudaria muito aqui. E não precisa ser uma grande mudança também. Se o relatório contivesse apenas a probabilidade de o modelo ser verdadeiro, isso seria muito útil. Essa é uma quantidade fácil de aproximar usando o BIC. Ligue para o BIC para o mésimo modelo . Então, a probabilidade de que o modelo m seja o modelo "verdadeiro", considerando que os modelos M eram adequados (e que um dos modelos é verdadeiro) é dada por:BICm M
=1
Onde é proporcional à probabilidade anterior para o j-ésimo modelo. Observe que isso inclui uma "penalidade" para tentar vários modelos - e a penalidade depende de quão bem os outros modelos se ajustam aos dados. Normalmente, você irá definir w j = 1 , no entanto, você pode ter alguns modelos "teóricos" dentro de sua classe que seria de esperar para ser melhor antes de ver quaisquer dados.wj wj=1
fonte