Digamos que eu tenho dois modelos de regressão, um com três variáveis e outro com quatro. Cada um cospe um r ^ 2 ajustado, que eu posso comparar diretamente.
Obviamente, o modelo com o r ^ 2 ajustado mais alto é o melhor ajuste, mas há como testar a diferença entre os dois r ^ 2 ajustados e obter um valor-p?
Eu sei que você pode fazer o teste de Chow para testar a diferença entre as inclinações, mas isso é variação, então eu não acho que é isso que estou procurando.
Editar: Um modelo não contém simplesmente um subconjunto de variáveis do outro modelo, ou eu provavelmente usaria regressão passo a passo.
No modelo 1, tenho quatro variáveis: W, X, Y e Z.
No modelo 2, tenho três variáveis: W, X e (Y + Z) / 2.
A idéia é que, se Y e Z forem conceitualmente semelhantes, o modelo poderá fazer melhores previsões agrupando essas duas variáveis antes de inseri-las no modelo.
fonte
Respostas:
Como whuber afirmou, esse é realmente um caso de modelos aninhados e, portanto, pode-se aplicar um teste de razão de verossimilhança . Como ainda não está claro quais modelos você está especificando, apenas os reescreverei neste exemplo;
Portanto, o modelo 1 pode ser:
E o modelo 2 pode ser (eu ignoro a divisão por 2, mas esta ação não tem conseqüências para sua pergunta):
Que pode ser reescrito como:
E, portanto, o modelo 2 é um caso específico do modelo 1 no qual e são iguais. Pode-se usar o teste de razão de verossimilhança entre esses dois modelos para atribuir um valor p ao ajuste do modelo 1 em comparação com o modelo 2. Existem boas razões na prática para fazer isso, especialmente se a correlação entre W e Z for muito grande ( multicolinearidade ). Como afirmei anteriormente, se você divide por dois não importa para testar o ajuste dos modelos, embora seja mais fácil interpretar então por todos os meios, use a média da duas variáveis. B 13 W + ZB12 B13 W+ZW+Z2 W+Z
As estatísticas de ajuste do modelo (como o CP de Mallow já mencionado por bill_080 e outros exemplos são AIC e BIC ), são frequentemente usadas para avaliar modelos não aninhados. Essas estatísticas não seguem distribuições conhecidas (como a probabilidade logarítmica, o qui-quadrado ) e, portanto, as diferenças nessas estatísticas entre os modelos não podem receber um valor-p.
fonte
Dê uma olhada no Mallow's Cp:
Mallow's Cp
Aqui está uma pergunta relacionada:
Existe uma maneira de otimizar a regressão de acordo com um critério específico?
fonte
Dada a configuração na resposta de Andy W, se alguém estimar o modelo
fonte