Como posso usar o valor de

13

Os gráficos abaixo são gráficos de dispersão residual de um teste de regressão para os quais as suposições "normalidade", "homoscedasticidade" e "independência" já foram atendidas com certeza! Para testar a suposição "linearidade" , embora, olhando os gráficos, possa-se adivinhar que o relacionamento é curvilíneo, mas a pergunta é: como o valor de "R2 Linear" pode ser usado para testar a suposição de linearidade? Qual é o intervalo aceitável para o valor de "R2 Linear" para decidir se o relacionamento está sendo linear? O que fazer quando a suposição de linearidade não é cumprida e transformar os IVs também não ajuda? !!

Aqui está o link para os resultados completos do teste.

Gráficos de dispersão:

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Cyrus
fonte
3
Vejo pela aparência dos gráficos que você está usando o SPSS. Basta abrir o gráfico para editar e encontrar o botão "Adicionar linha de ajuste". Lá você encontra algumas opções de desenho de linhas não lineares , por exemplo, Loess. Verifique se esta opção fornece uma linha razoavelmente reta.
ttnphns
@ ttnphns: adicionei o enredo com a linha Loess 2 à pergunta.
Cyrus
Bem, parece bastante curvilíneo, não é? Você pode jogar mais com os parâmetros Loess para ver o que acontece. Se a linha estiver curvada, você pode concluir visualmente que o relacionamento não é linear.
ttnphns
@Cyrus, eu postei uma resposta geral a esta pergunta, mas estava indo para adicionar um pouco de interpretação em suas parcelas e percebi que eu não estou muito certo o que o e y eixos são em sua trama - você pode esclarecer? xy
Macro
@ ttnphns: sim, é curvilíneo. Não sei como tratar esse modelo! Neste teste (# 2), tenho 2 IVs que afetam diretamente o DV (PIT). O resultado da regressão mostrou que apenas 1 dos IVs afeta significativamente a DV. O R2 é tão baixo (0,172) e a linearidade também está sendo baixa (pelo menos, de acordo com o gráfico, quando o IV está em níveis baixos). Não sei se esse teste é aceitável ou não! Até eu transformei os dois IVs (calculando o LN) e refiz a regressão, mas o resultado ficou ainda pior!
Cyrus

Respostas:

15

Observe que a suposição de linearidade de que você está falando diz apenas que a média condicional de dada X i é uma função linearYiXi . Você não pode usar o valor de para testar esta hipótese.R2

Isto é porque é meramente a correlação quadrados entre os valores observados e preditos e o valor do coeficiente de correlação não determinam unicamente a relação entre X e Y (ou de outra forma linear) e ambos os dois cenários seguintes são possíveis: R2XY

  • alto, mas a suposição de linearidade ainda está errada de uma maneira importanteR2

  • baixo, mas a suposição de linearidade ainda está satisfeitaR2

Vou discutir cada um por sua vez:

(1) alto, mas a suposição de linearidade ainda está errada de uma maneira importante:R2 O truque aqui é manipular o fato de que a correlação é muito sensível aos valores extremos . Suponha que você tenha preditores que são gerados a partir de uma distribuição de mistura que é normal normal 99 % do tempo e uma massa pontual em M o outro 1 % e uma variável de resposta que éX1,...,Xn99%M1%

Yi={Ziif XiMMif Xi=M

ZiN(μ,1)Mμμ=0,M=105XiYi

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

YiXiYiXiXi=M

R2XiYi

Yi=β0+β1Xi+εi

YiXiXivar(εi)=σ2β1R2

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

R2

Re: O que fazer quando a suposição de linearidade não é atendida e transformar os IVs também não ajuda? !!

Quando a não linearidade é um problema, pode ser útil examinar gráficos dos resíduos versus cada preditor - se houver algum padrão perceptível, isso pode indicar não linearidade nesse preditor. Por exemplo, se esse gráfico revelar uma relação "em forma de tigela" entre os resíduos e o preditor, isso poderá indicar um termo quadrático ausente nesse preditor. Outros padrões podem indicar uma forma funcional diferente. Em alguns casos, pode ser que você não tenha tentado corrigir a transformação ou que o modelo verdadeiro não seja linear em nenhuma versão transformada das variáveis ​​(embora seja possível encontrar uma aproximação razoável).

R2

Macro
fonte
4

R2=11R2R221<x<2R2R2

Michael R. Chernick
fonte
Obrigado Michael. O tamanho da minha amostra é 302. Eu apreciaria se você pudesse dar uma olhada nos resultados do teste aqui e ver se é plausível e sustentável relatar. TQ
Cyrus
@Cyrus Esta é uma pergunta difícil. Os resíduos parecem se encaixar muito bem no normal e não há nada que eu possa ver que esteja errado com a regressão linear. Você tem uma quantidade decente de dados. O quadrado R é baixo porque o componente de ruído aleatório é grande. O gráfico LOESS mostra alguma curvatura nos valores mais baixos da variável independente. Mas não acho isso convincente. Eu acho que poderia ser linear e mostra por que o quadrado R não é um bom indicador neste caso.
22812 Michael R. Chernick
Tq Michael :) Sim, é realmente desconcertante! Todas as suposições são perfeitamente cumpridas, mas linearidade! Como você pode ver no 1º gráfico acima, o R2 quadrático (0,199) é maior que o R2 linear (0,172), o que significa que ele pode prever melhor o modelo. Na verdade, quando eu fiz a regressão quadrática (adicionando SC2), o gráfico de dispersão no resultado foi tão heteroscedático! Estou tão confuso! Não sei o que fazer com este modelo! O único problema é sua baixa linearidade. Não sei como justificar a linearidade se colocar o gráfico de dispersão no meu relatório. A regressão quadrática também falha 2 - atenda à premissa de homogeneidade. Ajuda
Cyrus
1
Eu não acho isso desconcertante. Parece bastante linear. Existe muita variabilidade, razão pela qual o quadrado R é baixo. Eu acho que a única maneira de você reduzir a variabilidade seria encontrar outra variável explicativa.
22812 Michael R. Chernick