Por que não podemos usar para transformações de variáveis ​​dependentes?

10

Imagine que temos um modelo de regressão linear com variável dependente . Encontramos seu . Agora, fazemos outra regressão, mas desta vez em , e também encontramos seu . Foi-me dito que não posso comparar os dois para ver qual modelo é mais adequado. Por que é que? A razão que me foi dada foi que comparamos a variabilidade de diferentes quantidades (diferentes variáveis ​​dependentes). Não sei se isso deve ser uma razão suficiente para isso.R 2 y log ( y ) R 2 log ( y ) R 2yRy2log(y)Rlog(y)2R2

Também existe uma maneira de formalizar isso?

Qualquer ajuda seria apreciada.

Um velho no mar.
fonte
11
Eu suspeito que isso possa ter sido discutido antes no Cross Validated. Você passou por tópicos semelhantes completamente? Além disso, você se preocupa com diferentes variáveis ​​dependentes (como PIB x preço do petróleo) ou transformações da mesma variável (crescimento do PIB x PIB), ou ambas?
Richard Hardy
@RichardHardy Encontrei alguns, mas acho que eles foram tangentes à minha pergunta. Como este: stats.stackexchange.com/questions/235117/… A resposta apenas afirma que sim, sem realmente explicar o porquê.
Um velho no mar.
@RichardHardy Estou interessado em transformações da variável dependente.
Um velho no mar.
11
R2 comparações fazem sentido apenas entre modelos aninhados.
LVRao 14/05
@LVRao Obrigado pelo seu comentário. Por que é tão?
Um velho no mar.

Respostas:

8

É uma boa pergunta, porque "quantidades diferentes" não parecem ser uma grande explicação.

Há duas razões importantes para se desconfiar de usar para comparar esses modelos: é muito bruto ( realmente não avalia a qualidade do ajuste ) e será inadequado para pelo menos um dos modelos. Esta resposta aborda esse segundo problema.R2


Tratamento Teórico

R 2 yR2 compara a variação dos resíduos do modelo com a variação das respostas. A variação é um desvio aditivo quadrado médio de um ajuste. Como tal, podemos entender como comparando dois modelos da resposta . R2y

O modelo "base" é

(1)yi=μ+δi

onde é um parâmetro (a resposta média teórica) e são "erros" aleatórios independentes, cada um com média zero e uma variação comum de .δ i τ 2μδiτ2

O modelo de regressão linear apresenta os vetores como variáveis ​​explicativas:xi

(2)yi=β0+xiβ+εi.

O número e o vetor são os parâmetros (a interceptação e as "inclinações"). O novamente são erros aleatórios independentes, cada um com média zero e variância comum . β ε i σ 2β0βεiσ2

τ 2 - σ 2 τ 2R2 estima a redução na variância, , em comparação com a variância original .τ2σ2τ2

Quando você usa logaritmos e usa menos quadrados para ajustar-se ao modelo , você está implicitamente comparando um relacionamento da forma

(1a)log(yi)=ν+ζi

para um dos formulários

(2a)log(yi)=γ0+xiγ+ηi.

São exatamente como os modelos e mas com respostas de log. Eles não são equivalentes aos dois primeiros modelos, no entanto. Por exemplo, exponenciar os dois lados de daria(1)(2)(2a)

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

Os termos de erro agora multiplicam o relacionamento subjacente . Conseqüentemente, as variações das respostas sãoexp(ηi)yi=exp(γ0+xiγ)

Var(yi)=exp(γ0+xiγ)2Var(eηi).

As variações dependem do . xi Esse não é o modelo , que supõe que todas as variações são iguais a uma constante .(2)σ2

Normalmente, apenas um desses conjuntos de modelos pode ser uma descrição razoável dos dados. A aplicação do segundo conjunto e quando o primeiro conjunto e for um bom modelo, ou o primeiro quando o segundo for bom, equivale a trabalhar com um conjunto de dados heteroscedástico não-linear, que, portanto, deve se ajustar mal a uma regressão linear. Quando qualquer uma dessas situações é o caso, podemos esperar que o melhor modelo exiba o maior . No entanto, e se não for o caso? Ainda podemos esperar que o maior nos ajude a identificar o melhor modelo?(1a)(2a)(1)(2)R2R2

Análise

Em certo sentido, essa não é uma boa pergunta, porque, se nenhum dos modelos for apropriado, devemos encontrar um terceiro modelo. No entanto, a questão diante de nós diz respeito à utilidade de em nos ajudar a fazer essa determinação. Além disso, muitas pessoas pensam primeiro sobre a forma da relação entre e - é linear, logarítmica, é outra coisa - sem se preocupar com as características dos erros de regressão ou . Consideremos, portanto, uma situação em que nosso modelo acerta o relacionamento, mas está errado sobre sua estrutura de erros ou vice-versa .R2xyεiηi

Esse modelo (que geralmente ocorre) é um mínimo de quadrados adequado a um relacionamento exponencial,

(3)yi=exp(α0+xiα)+θi.

Agora, o logaritmo de é uma função linear de , como em , mas os termos de erro são aditivos , como em . Nesses casos, pode nos induzir a escolher o modelo com o relacionamento errado entre e .yx(2a)θi(2)R2xy

Aqui está uma ilustração do modelo . Existem observações para (um vetor 1 igualmente distribuído entre e ). O painel esquerdo mostra os dados originais enquanto o painel direito mostra os dados transformados . As linhas vermelhas tracejadas traçam o verdadeiro relacionamento subjacente, enquanto as linhas azuis sólidas mostram os mínimos quadrados. Os dados e o verdadeiro relacionamento são os mesmos nos dois painéis: apenas os modelos e seus ajustes diferem.(3)300xi1.01.6(x,y)(x,log(y))

Gráficos de dispersão

O ajuste às respostas do log à direita claramente é bom: quase coincide com o verdadeiro relacionamento e ambos são lineares. O ajuste às respostas originais à esquerda é claramente pior: é linear enquanto o verdadeiro relacionamento é exponencial. Infelizmente, possui um valor notavelmente maior de : comparação com . É por isso que não devemos confiar em para nos levar ao melhor modelo. É por isso que não devemos ficar satisfeitos com o ajuste, mesmo quando é "alto" (e em muitas aplicações, um valor de seria considerado realmente alto). 0,70 0,56 R 2 R 2 0,70R20.700.56R2R20.70


Aliás, uma maneira melhor de avaliar esses modelos inclui testes de adequação (que indicariam a superioridade do modelo de log à direita) e gráficos de diagnóstico para estacionariedade dos resíduos (o que destacaria problemas nos dois modelos). Tais avaliações levariam naturalmente uma a um ajuste de mínimos quadrados ponderados de ou diretamente ao próprio modelo , que teria que ser ajustado usando métodos de máxima verossimilhança ou mínimos quadrados não lineares.( 3 )log(y)(3)

whuber
fonte
As críticas a R ^ 2 não são justas. Como toda ferramenta de uso deve ser bem compreendida. Nos seus exemplos acima, R ^ 2 está dando a mensagem correta. R ^ 2 está de certa forma escolhendo a melhor relação sinal / ruído. É claro que não é óbvio quando você coloca dois gráficos com escalas totalmente diferentes lado a lado. Na realidade, o sinal à esquerda é muito forte comparado aos desvios de ruído.
Cagdas Ozgenc
@Cagdas Você parece oferecer uma mensagem inerentemente contraditória. Como as duas plotagens estão inevitavelmente em duas escalas diferentes - uma plotam as respostas originais e a outra plotam seus logaritmos -, então alegam que algo "não é óbvio", porque esse fato inevitável não parece apoiar o seu caso. Reclamar que essa resposta é "injusta" realmente não se sustenta à luz da análise explícita dos modelos que ofereci.
whuber
Não há contradição no que estou dizendo. R ^ 2 escolhe a maior relação sinal / ruído. É o que está fazendo. Tentar transformá-lo em outra coisa e afirmar que não está funcionando é totalmente errado. Todas as críticas a R ^ 2 também se aplicam a outros indicadores de qualidade de ajuste quando aplicadas a diferentes variáveis ​​de resposta, mas por alguma razão R ^ 2 é escolhido como o bode expiatório.
Cagdas Ozgenc
Eu realmente estaria interessado em saber, @Cagdas, exatamente que parte dessa análise você vê como "bode expiatório" . Tanto quanto posso dizer, é uma avaliação imparcial e tecnicamente correta do que é e não é capaz de realizar. Não vejo como é relevante se referir a "relações sinal / ruído" quando, de fato, o exemplo mostra explicitamente como o melhor modelo (no sentido que descrevi, que concorda com o que a maioria das pessoas entende por "qualidade de ajuste") produz o pior . R 2 R 2R2R2R2
whuber
2
Obrigado por sua ajuda whuber. Desculpe pela aceitação tardia, não tenho tido muito tempo livre ultimamente. ;)
Um velho no mar.