Uma regressão linear pode ser significativa se os dados não forem lineares?

11

Realizei uma regressão linear que resultou com um resultado significativo, porém, quando verifiquei o gráfico de dispersão quanto à linearidade, não estava confiante de que os dados fossem lineares.

Existem outras maneiras de testar a linearidade sem inspecionar o gráfico de dispersão?

A regressão linear poderia ser significativa se não fosse linear?

[Editado para incluir gráficos de dispersão]

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

IntoTheBlue
fonte
3
Pode haver várias interpretações das perguntas e respostas múltiplas (mas basicamente a resposta é sim em todos os casos, e como o resultado é prova disso, é certamente possível no seu caso). Você pode mostrar o gráfico de dispersão? Depois, outras pessoas podem entender o que você quer dizer com dados não lineares e em que sentido o resultado significativo acabou presente de qualquer maneira.
Sextus Empiricus
5
Consulte stats.stackexchange.com/search?q=anscombe+quartet para obter um conjunto clássico de exemplos simples. Em stats.stackexchange.com/a/152034/919 , publiquei um algoritmo capaz de construir exemplos para se adaptar a quase todas as circunstâncias em que você possa pensar.
whuber
É claro que ignorar a nolineararidade, mesmo quando a tendência geral é linear, pode levar a inferência comprometida na aplicação. Por exemplo, se o verdadeiro relacionamento é que cai acentuadamente, então se achata em , a interpretação linear de é que cai em alguma quantidade média sobre todos os valores de , enquanto o verdadeiro relacionamento é que cai muito mais acentuadamente um intervalo muito mais estreito de e o intervalo restante de é afetado mais ou menos. A interpretação linear seria ruim para efeitos de tratamento clínico ou para efeitos de gastos com políticas.X Y X Y X XYXYXYXX
Alexis
Além disso: a regressão linear não é significativa ou não, mas sim testes de, por exemplo, , , , pode ser significativo ou não, com algum grau de independência. H 0 : β x = c H 0 : F = C H 0 : R 2 = cH0 0:β0 0=cH0 0:βx=cH0 0:F=cH0 0:R2=c
Alexis
Obrigado pelas respostas e desculpas pela resposta lenta - estive longe da tecnologia! Eu editei a postagem para incluir gráficos de dispersão para as regressões significativas. Qualquer conselho sobre como proceder será muito apreciado.
IntoTheBlue 04/04

Respostas:

18

Relações não lineares monotônicas quase sempre aparecem significativas ao modelar como modelos lineares. Se o relacionamento for não linear e não monotônico, isso depende da amostra.

y=emxy=x3y=x2y=pecadox

x[-1,1]y=pecadoxyx

insira a descrição da imagem aqui

x[0 0,π]insira a descrição da imagem aqui

Aksakal
fonte
13
+1. Mas observe que o termo correto é "monotônico". "Monótono" significa monótono e tedioso através da repetição.
whuber
22
emxpecadox
+1 Eu também sugeriria definir o que significa monotônico.
Mark White
Obrigado, atualizei a postagem para incluir gráficos de dispersão. Qualquer conselho sobre como proceder será muito apreciado.
IntoTheBlue 4/18
(x-x¯)2
3

Sim, Aksakal está certo e uma regressão linear pode ser significativa se o verdadeiro relacionamento for não linear. Uma regressão linear encontra uma linha que melhor se ajusta aos seus dados e simplesmente testa se a inclinação é significativamente diferente de 0.

Antes de tentar encontrar um teste estatístico para a não linearidade, sugiro refletir sobre o que você deseja modelar primeiro. Você espera uma relação linear (não linear) entre suas duas variáveis? O que exatamente você está tentando descobrir? Se faz sentido supor que exista uma relação não linear como, por exemplo, entre a velocidade do carro e a distância de frenagem, você pode adicionar termos ao quadrado (ou outras transformações) da sua variável independente.

Além disso, uma inspeção visual de seus dados (gráfico de dispersão) é um método muito poderoso e um primeiro passo essencial em sua análise.

Pawel
fonte
YX
Também: Bem-vindo ao CV, Pawel!
Alexis
2
@ Alexis Você está certo. Mas adicionar um termo quadrático ainda é uma recomendação comumente vista em alguns textos como uma maneira rápida e suja de verificar a não-linearidade (entendendo que ninguém está sugerindo que seja a única ou até a primeira maneira de modelar não-linearidades), então estou não tão preocupado com essa passagem.
whuber
+1 @whuber Infelizmente, encontrei muitos pesquisadores, estudantes e professores praticando a adição de um termo quadrático como a primeira verificação além do globo ocular de um gráfico de dispersão como "como testar a não-linearidade", com um resultado negativo sendo interpretado como "linear é suficiente" " (Os termos quadráticos podem realmente ser úteis, e eu os usei em minha própria pesquisa. :) Acho que minha perspectiva sobre "rápido e sujo" é que o que é ensinado como fácil se torna rigoroso para a esmagadora maioria dos pesquisadores. Acho que as regressões não paramétricas são tão "fáceis" quanto lineares e uma ferramenta melhor para explorar.
Alexis #
@ Alexis Obrigado. Eu acho que você me entendeu mal. Eu não estava recomendando adicionar termos ao quadrado para testar a não linearidade, mas definitivamente pode haver casos para termos ao quadrado (ou outras transformações. Os dados econômicos geralmente são transformados em log). Eu acho que precisa haver uma distinção entre análise exploratória e análise explicativa. Se houver motivos substanciais para assumir uma relação ao quadrado, isso precisará ser testado. O que você está propondo é uma abordagem mais exploratória.
Pawel
-2

Eu concordo com tudo o que Aksakal diz. Mas, quanto à primeira pergunta, acho que a resposta é correlação. A correlação mede até que ponto existe um relacionamento linear entre os conjuntos de dados xey.

meh
fonte
2
y=emx
@gung Sim, eu faço. Que afirmação dele você considera incorreta? Permita-me sugerir que eu entenda o que as palavras linear e não linear significam e que, como na resposta de Aksakal, é realmente fácil encontrar exemplos de variáveis ​​com uma relação exata e não linear. No entanto, a correlação é uma medida da relação linear e uma correlação de +/- 1 significa que a relação é realmente linear. Qualquer correlação menor que isso significa que o relacionamento é (não exatamente) linear, mas pode estar próximo o suficiente.
meh
1
O OP "realizou uma regressão linear que resultou com um resultado significativo", mas o gráfico de dispersão implicava que a relação não era linear. Uma correlação provavelmente também teria sido significativa, de fato, se a regressão tivesse apenas 1 variável X, os valores de p da regressão e a correlação seriam idênticos. Mas se o relacionamento não fosse linear, apesar da regressão significativa, ainda não seria linear, apesar da correlação significativa. Assim, uma correlação significativa não é evidência de que o relacionamento seja linear.
gung - Restabelece Monica
1
r=1r=1r1
1
Isso pode parecer excessivamente sutil ou até minucioso, mas (a) eu concordo que a correlação é uma maneira de medir a linearidade de um relacionamento bivariado - afinal, é um teorema matemático - mas (b) como uma proposição geral, duvido que poderia ser interpretado como mais do que uma maneira extremamente grosseira de avaliar a não linearidade. As evidências de não linearidade podem ser impressionantes em um conjunto de dados com alta correlação absoluta da amostra e estar completamente ausentes em um conjunto de dados com pequena correlação absoluta. (cc @gung)
whuber