Os gráficos abaixo são gráficos de dispersão residual de um teste de regressão para os quais as suposições "normalidade", "homoscedasticidade" e "independência" já foram atendidas com certeza! Para testar a suposição "linearidade" , embora, olhando os gráficos, possa-se adivinhar que o relacionamento é curvilíneo, mas a pergunta é: como o valor de "R2 Linear" pode ser usado para testar a suposição de linearidade? Qual é o intervalo aceitável para o valor de "R2 Linear" para decidir se o relacionamento está sendo linear? O que fazer quando a suposição de linearidade não é cumprida e transformar os IVs também não ajuda? !!
Aqui está o link para os resultados completos do teste.
Gráficos de dispersão:
Respostas:
Observe que a suposição de linearidade de que você está falando diz apenas que a média condicional de dada X i é uma função linearYi Xi . Você não pode usar o valor de para testar esta hipótese.R2
Isto é porque é meramente a correlação quadrados entre os valores observados e preditos e o valor do coeficiente de correlação não determinam unicamente a relação entre X e Y (ou de outra forma linear) e ambos os dois cenários seguintes são possíveis:R2 X Y
alto, mas a suposição de linearidade ainda está errada de uma maneira importanteR2
baixo, mas a suposição de linearidade ainda está satisfeitaR2
Vou discutir cada um por sua vez:
(1) alto, mas a suposição de linearidade ainda está errada de uma maneira importante:R2 O truque aqui é manipular o fato de que a correlação é muito sensível aos valores extremos . Suponha que você tenha preditores que são gerados a partir de uma distribuição de mistura que é normal normal 99 % do tempo e uma massa pontual em M o outro 1 % e uma variável de resposta que éX1,...,Xn 99% M 1%
Re: O que fazer quando a suposição de linearidade não é atendida e transformar os IVs também não ajuda? !!
Quando a não linearidade é um problema, pode ser útil examinar gráficos dos resíduos versus cada preditor - se houver algum padrão perceptível, isso pode indicar não linearidade nesse preditor. Por exemplo, se esse gráfico revelar uma relação "em forma de tigela" entre os resíduos e o preditor, isso poderá indicar um termo quadrático ausente nesse preditor. Outros padrões podem indicar uma forma funcional diferente. Em alguns casos, pode ser que você não tenha tentado corrigir a transformação ou que o modelo verdadeiro não seja linear em nenhuma versão transformada das variáveis (embora seja possível encontrar uma aproximação razoável).
fonte
fonte