Diferença de teste entre dois r ^ 2 (ajustados)

8

Digamos que eu tenho dois modelos de regressão, um com três variáveis ​​e outro com quatro. Cada um cospe um r ^ 2 ajustado, que eu posso comparar diretamente.

Obviamente, o modelo com o r ^ 2 ajustado mais alto é o melhor ajuste, mas há como testar a diferença entre os dois r ^ 2 ajustados e obter um valor-p?

Eu sei que você pode fazer o teste de Chow para testar a diferença entre as inclinações, mas isso é variação, então eu não acho que é isso que estou procurando.

Editar: Um modelo não contém simplesmente um subconjunto de variáveis ​​do outro modelo, ou eu provavelmente usaria regressão passo a passo.

No modelo 1, tenho quatro variáveis: W, X, Y e Z.

No modelo 2, tenho três variáveis: W, X e (Y + Z) / 2.

A idéia é que, se Y e Z forem conceitualmente semelhantes, o modelo poderá fazer melhores previsões agrupando essas duas variáveis ​​antes de inseri-las no modelo.

Jeff
fonte
3
São os modelos aninhados (ou seja, são os modelos do mesmo, exceto para a variável no modelo de quatro variável?)
Andy W
Q bom. Não, eles não são, mas perto. Um modelo usa quatro variáveis, WXY e Z. O outro modelo possui três variáveis, WX e (Y + Z) / 2. Embora Y e Z possam ou não ser ponderados igualmente no segundo modelo.
22411 Jeff
1
você deve atualizar sua pergunta com essas informações, tentar escrever matematicamente os modelos que você está ajustando e ser o mais explícito possível sobre a transformação para "Y e Z" e o que você está tentando realizar com essa transformação.
22711 Andy
Bem, vamos ficar com uma média simples por enquanto ... Q foi atualizado, obrigado!
22411 Jeff
1
Sim, os modelos estão aninhados. Para ver isso, você pode reescrever o modelo 1 em termos de W, X, (Y + Z) / 2 e (digamos) (YZ) / 2, mostrando que o modelo 2 apenas elimina uma variável.
whuber

Respostas:

8

Como whuber afirmou, esse é realmente um caso de modelos aninhados e, portanto, pode-se aplicar um teste de razão de verossimilhança . Como ainda não está claro quais modelos você está especificando, apenas os reescreverei neste exemplo;

Portanto, o modelo 1 pode ser:

Y=a1+B11(X)+B12(W)+B13(Z)+e1

E o modelo 2 pode ser (eu ignoro a divisão por 2, mas esta ação não tem conseqüências para sua pergunta):

Y=a2+B21(X)+B22(W+Z)+e2

Que pode ser reescrito como:

Y=a2+B21(X)+B22(W)+B22(Z)+e2

E, portanto, o modelo 2 é um caso específico do modelo 1 no qual e são iguais. Pode-se usar o teste de razão de verossimilhança entre esses dois modelos para atribuir um valor p ao ajuste do modelo 1 em comparação com o modelo 2. Existem boas razões na prática para fazer isso, especialmente se a correlação entre W e Z for muito grande ( multicolinearidade ). Como afirmei anteriormente, se você divide por dois não importa para testar o ajuste dos modelos, embora seja mais fácil interpretar então por todos os meios, use a média da duas variáveis. B 13 W + ZB12B13 W+ZW+Z2W+Z

As estatísticas de ajuste do modelo (como o CP de Mallow já mencionado por bill_080 e outros exemplos são AIC e BIC ), são frequentemente usadas para avaliar modelos não aninhados. Essas estatísticas não seguem distribuições conhecidas (como a probabilidade logarítmica, o qui-quadrado ) e, portanto, as diferenças nessas estatísticas entre os modelos não podem receber um valor-p.

Andy W
fonte
0

Dada a configuração na resposta de Andy W, se alguém estimar o modelo

Y=a3+B31(X)+B32(W+Z)+B33(Z)+e3

B33B33B12B13B33

McFanda
fonte
R2
Sim, o teste inferencial em B_33 é equivalente a testar a diferença entre os dois R ^ 2 (ajustados ou não) do model1 e
model2