Imagine que temos um modelo de regressão linear com variável dependente . Encontramos seu . Agora, fazemos outra regressão, mas desta vez em , e também encontramos seu . Foi-me dito que não posso comparar os dois para ver qual modelo é mais adequado. Por que é que? A razão que me foi dada foi que comparamos a variabilidade de diferentes quantidades (diferentes variáveis dependentes). Não sei se isso deve ser uma razão suficiente para isso.R 2 y log ( y ) R 2 log ( y ) R 2
Também existe uma maneira de formalizar isso?
Qualquer ajuda seria apreciada.
regression
data-transformation
r-squared
Um velho no mar.
fonte
fonte
Respostas:
É uma boa pergunta, porque "quantidades diferentes" não parecem ser uma grande explicação.
Há duas razões importantes para se desconfiar de usar para comparar esses modelos: é muito bruto ( realmente não avalia a qualidade do ajuste ) e será inadequado para pelo menos um dos modelos. Esta resposta aborda esse segundo problema.R2
Tratamento Teórico
R 2 yR2 compara a variação dos resíduos do modelo com a variação das respostas. A variação é um desvio aditivo quadrado médio de um ajuste. Como tal, podemos entender como comparando dois modelos da resposta . R2 y
O modelo "base" é
onde é um parâmetro (a resposta média teórica) e são "erros" aleatórios independentes, cada um com média zero e uma variação comum de .δ i τ 2μ δi τ2
O modelo de regressão linear apresenta os vetores como variáveis explicativas:xi
O número e o vetor são os parâmetros (a interceptação e as "inclinações"). O novamente são erros aleatórios independentes, cada um com média zero e variância comum . β ε i σ 2β0 β εi σ2
τ 2 - σ 2 τ 2R2 estima a redução na variância, , em comparação com a variância original .τ2−σ2 τ2
Quando você usa logaritmos e usa menos quadrados para ajustar-se ao modelo , você está implicitamente comparando um relacionamento da forma
para um dos formulários
São exatamente como os modelos e mas com respostas de log. Eles não são equivalentes aos dois primeiros modelos, no entanto. Por exemplo, exponenciar os dois lados de daria(1) (2) (2a)
Os termos de erro agora multiplicam o relacionamento subjacente . Conseqüentemente, as variações das respostas sãoexp(ηi) yi=exp(γ0+xiγ)
As variações dependem do .xi Esse não é o modelo , que supõe que todas as variações são iguais a uma constante .(2) σ2
Normalmente, apenas um desses conjuntos de modelos pode ser uma descrição razoável dos dados. A aplicação do segundo conjunto e quando o primeiro conjunto e for um bom modelo, ou o primeiro quando o segundo for bom, equivale a trabalhar com um conjunto de dados heteroscedástico não-linear, que, portanto, deve se ajustar mal a uma regressão linear. Quando qualquer uma dessas situações é o caso, podemos esperar que o melhor modelo exiba o maior . No entanto, e se não for o caso? Ainda podemos esperar que o maior nos ajude a identificar o melhor modelo?(1a) (2a) (1) (2) R2 R2
Análise
Em certo sentido, essa não é uma boa pergunta, porque, se nenhum dos modelos for apropriado, devemos encontrar um terceiro modelo. No entanto, a questão diante de nós diz respeito à utilidade de em nos ajudar a fazer essa determinação. Além disso, muitas pessoas pensam primeiro sobre a forma da relação entre e - é linear, logarítmica, é outra coisa - sem se preocupar com as características dos erros de regressão ou . Consideremos, portanto, uma situação em que nosso modelo acerta o relacionamento, mas está errado sobre sua estrutura de erros ou vice-versa .R2 x y εi ηi
Esse modelo (que geralmente ocorre) é um mínimo de quadrados adequado a um relacionamento exponencial,
Agora, o logaritmo de é uma função linear de , como em , mas os termos de erro são aditivos , como em . Nesses casos, pode nos induzir a escolher o modelo com o relacionamento errado entre e .y x (2a) θi (2) R2 x y
Aqui está uma ilustração do modelo . Existem observações para (um vetor 1 igualmente distribuído entre e ). O painel esquerdo mostra os dados originais enquanto o painel direito mostra os dados transformados . As linhas vermelhas tracejadas traçam o verdadeiro relacionamento subjacente, enquanto as linhas azuis sólidas mostram os mínimos quadrados. Os dados e o verdadeiro relacionamento são os mesmos nos dois painéis: apenas os modelos e seus ajustes diferem.(3) 300 xi 1.0 1.6 (x,y) (x,log(y))
O ajuste às respostas do log à direita claramente é bom: quase coincide com o verdadeiro relacionamento e ambos são lineares. O ajuste às respostas originais à esquerda é claramente pior: é linear enquanto o verdadeiro relacionamento é exponencial. Infelizmente, possui um valor notavelmente maior de : comparação com . É por isso que não devemos confiar em para nos levar ao melhor modelo. É por isso que não devemos ficar satisfeitos com o ajuste, mesmo quando é "alto" (e em muitas aplicações, um valor de seria considerado realmente alto). 0,70 0,56 R 2 R 2 0,70R2 0.70 0.56 R2 R2 0.70
Aliás, uma maneira melhor de avaliar esses modelos inclui testes de adequação (que indicariam a superioridade do modelo de log à direita) e gráficos de diagnóstico para estacionariedade dos resíduos (o que destacaria problemas nos dois modelos). Tais avaliações levariam naturalmente uma a um ajuste de mínimos quadrados ponderados de ou diretamente ao próprio modelo , que teria que ser ajustado usando métodos de máxima verossimilhança ou mínimos quadrados não lineares.( 3 )log(y) (3)
fonte