Faz sentido adicionar um termo quadrático, mas não linear, a um modelo?

57

Eu tenho um modelo (misto) em que um dos meus preditores deve, a priori, estar relacionado quadraticamente ao preditor (devido à manipulação experimental). Por isso, gostaria de adicionar apenas o termo quadrático ao modelo. Duas coisas me impedem de fazê-lo:

  1. Acho que li em algum lugar que você sempre deve incluir o polinômio de ordem inferior ao ajustar polinômios de ordem superior. Esqueci onde a encontrei e, na literatura em que olhei (por exemplo, Faraway, 2002; Fox, 2002), não consigo encontrar uma boa explicação.
  2. Quando adiciono ambos, o termo linear e o quadrático, ambos são significativos. Quando adiciono apenas um deles, eles não são significativos. No entanto, uma relação linear de preditor e dados não é interpretável.

O contexto da minha pergunta é especificamente um modelo misto lme4, mas eu gostaria de obter respostas que pudessem explicar por que é ou por que não é adequado incluir um polinômio de ordem superior e não um polinômio de ordem inferior.

Se necessário, posso fornecer os dados.

Henrik
fonte
5
Eu acho que as respostas para esta pergunta podem ser úteis.
6
Sim, eu concordo com o procrastinador, e as questões de interação são essencialmente a mesma consideração. Temos algumas perguntas altamente votadas sobre o assunto. Além da sugestão do Pro, consulte também Todos os termos de interações precisam de termos individuais no modelo de regressão? e E se a interação eliminar meus efeitos diretos na regressão? .
Andy W
Obrigado pelo lembrete dessas perguntas. A partir das respostas dadas, parece que é uma boa estratégia se você tiver boas razões a priori para incluir apenas o termo quadrático e não estiver errado. A questão que permanece é sobre escalabilidade (consulte: stats.stackexchange.com/a/27726/442 ). Devo centralizar minha variável antes de ajustar quando usar apenas o termo quadrático?
Henrik
11
@ Henrik - minha resposta no link que você postou foi sobre como a inferência do modelo depende de mudanças arbitrárias nos valores dos preditores (como centralização média) - é indesejável que a conclusão substantiva dependa de algo tão arbitrário, e é por isso que minha resposta à sua a pergunta é 'não', pela mesma razão.
Macro
2
A questão quadrática versus linear é suficientemente conceitualmente distinta das interações, que eu acho que isso não deve ser considerado uma duplicata.
gung - Restabelece Monica

Respostas:

66

1. Por que incluir o termo linear?

É esclarecedor notar que um relacionamento quadrático pode ser escrito de duas maneiras:

y=a0+a1x+a2x2=a2(xb)2+c

(onde, equacionando coeficientes, encontramos e ). O valor corresponde a um extremo global do relacionamento (geometricamente, localiza o vértice de uma parábola).2a2b=a1a2b2+c=a0x=b

Se você não incluir o termo linear , as possibilidades serão reduzidas paraa1x

y=a0+a2x2=a2(x0)2+c

(onde agora, obviamente, e supõe-se que o modelo contenha um termo constante ). Ou seja, você força .c=a0a0b=0

À luz disso, a pergunta 1 resume-se à certeza de que o extremo global deve ocorrer em . Se você é, pode omitir com segurança o termo linear . Caso contrário, você deve incluí-lo.x=0a1x

2. Como entender as mudanças de significado à medida que os termos são incluídos ou excluídos?

Isso é discutido em detalhes em um thread relacionado em https://stats.stackexchange.com/a/28493 .

No presente caso, o significado de indica que há curvatura no relacionamento e o significado de indica que é diferente de zero: parece que você precisa incluir os dois termos (assim como a constante, é claro).a2a1b

whuber
fonte
11
Obrigado whuber. Ótima resposta. Portanto, se eu centrar o extremo teórico em 0 (na verdade, é o mínimo), estou bem em omitir o termo linear. Isso leva a um preditor quadrático altamente significativo (sem o linear).
Henrik
se os termos linear e quadrático de uma variável estiverem correlacionados, posso incluir os dois em um modelo ou devo excluir um (que suponho que seja o quadrático)?
mtao
@Teresa Não há motivo geral para eliminar termos correlatos em uma regressão. (Se fosse esse o caso, a grande maioria dos modelos de regressão já criados estaria com problemas!) Termos muito fortemente correlacionados que juntos não contribuem com nada significativo para o ajuste do modelo em comparação com um dos termos em si podem ser reduzidos a um subconjunto desses termos.
whuber
@ Whuber, muito obrigado! Além disso, para um modelo de regressão logística, usei o odds ratio para estimar o tamanho do efeito, mas apenas com termos lineares. Quando tenho linear e quadrático, posso usar a mesma abordagem e interpretar os resultados da mesma maneira?
mtao
Não é bem assim. O motivo é que você não pode alterar separadamente os termos linear e quadrático. Você deve considerar como a resposta será alterada quando você alterar um pouco a variável original.
whuber
22

@whuber deu uma resposta realmente excelente aqui. Eu só quero adicionar um pequeno ponto complementar. A pergunta afirma que "uma relação linear de preditor e dados não é interpretável". Isso sugere um mal-entendido comum, embora eu normalmente o ouça do outro lado ('qual é a interpretação do termo ao quadrado [cúbico, etc.]?').

Quando temos um modelo com várias covariáveis diferentes , cada termo beta geralmente pode ter sua própria interpretação. Por exemplo, se:

GPA^college=β0+β1GPAhighschool+β2class rank+β3SAT,

(GPA significa média de notas;
classificação é a ordem do GPA de um aluno em relação a outros alunos da mesma escola; &
SAT significa 'teste de aptidão escolar', um teste padrão nacional para estudantes que frequentam a universidade)

então podemos atribuir interpretações separadas para cada beta / termo. Por exemplo, se o GPA do ensino médio de um aluno fosse 1 ponto mais alto - todos os demais sendo iguais - esperaríamos que o GPA da faculdade fosse pontos mais alto. β1

É importante observar, no entanto, que nem sempre é permitido interpretar um modelo dessa maneira. Um caso óbvio é quando há uma interação entre algumas das variáveis, pois não seria possível que o termo individual diferisse e ainda assim tudo se mantivesse constante - por necessidade, o termo de interação também mudaria. Assim, quando há uma interação, não interpretamos efeitos principais, mas apenas efeitos simples , como é bem entendido.

A situação com termos de poder é diretamente análoga, mas infelizmente não parece ser amplamente compreendida. Considere o seguinte modelo: (Nesta situação, pretende representar uma covariável contínua prototípica.) Não é possível que mude sem mudar também, e vice versa. Simplificando, quando existem termos polinomiais em um modelo, os vários termos baseados na mesma covariável subjacente não recebem interpretações separadas. O termo ( , , etc.) não tem nenhum significado independente. O fato de um

y^=β0+β1x+β2x2
xxx2x2xx17pO termo polinomial de potência é 'significativo' em um modelo indica que há 'dobras' de na função relacionada e . É lamentável, mas inevitável, que quando a curvatura existe, a interpretação se torna mais complicada e possivelmente menos intuitiva. Para avaliar a mudança em medida que muda, teremos que usar cálculo. A derivada do modelo acima é: que é a taxa instantânea de mudança no valor esperado de conforme muda, sendo o resto igual. Isso não é tão claro quanto a interpretação do modelo mais alto; importante, a taxa instantânea de mudança dep1xyy^x
dydx=β1+2β2x
yxy depende do nível de do qual a alteração é avaliadax . Além disso, a taxa de variação em é uma taxa instantânea; isto é, ele próprio muda continuamente ao longo do intervalo de para . Essa é simplesmente a natureza de um relacionamento curvilíneo. yxoldxnew
- Reinstate Monica
fonte
11
Excelente resposta! Isso me lembra algumas respostas excelentes que o usuário chl forneceu na interpretação dos efeitos da interação . Ele fornece referências de artigos nesta resposta: Quais são as melhores práticas para identificar efeitos de interação? . E dá um exemplo maravilhoso de exibição gráfica da interação usando coplots nesta resposta: A interação é possível entre duas variáveis ​​contínuas? .
Andy W
11
Para a resposta de Gung, quero apenas dizer que a modelagem estatística envolve ruído que pode disfarçar detalhes em um modelo de regressão polinomial. acho que a questão central que Bill Huber levantou foi greta, porque em uma formulação falta um termo linear e na outra ocorre com o termo quadrático. A força da curvatura no sinal determina a necessidade de um termo maior que o de primeira ordem, mas realmente não nos diz nada sobre a necessidade de um termo linear também.
Michael Chernick
7

A resposta do @ whuber acima está correta ao apontar que a omissão do termo linear é o modelo quadrático "usual" é equivalente a dizer: "Estou absolutamente certo de que o extremo está em ".x=0

No entanto, você também precisa verificar se o software que você está usando tem uma "pegadinha". Alguns softwares podem centralizar os dados automaticamente ao ajustar um polinômio e testar seus coeficientes, a menos que você desative a centralização polinomial. Ou seja, pode caber uma equação que se parece com onde é a média dos seus s. Isso forçaria o extremo a estar em . ˉ x x x = ˉ xY=b0+b2(xx¯)2x¯xx=x¯

Sua afirmação de que os termos linear e quadrático são significativos quando ambos são inseridos precisa de algum esclarecimento. Por exemplo, o SAS pode relatar um teste Tipo I e / ou Tipo III para esse exemplo. O tipo I testa o linear antes de colocar o quadrático. O tipo III testa o linear com o quadrático no modelo.

Emil Friedman
fonte
2
Esse é um ponto razoável, mas apenas porque os dados foram centralizados antes da criação de não significa que você possa estar "absolutamente certo de que o extremo está em ". Dizer que agora é equivalente a ter dito "o extremo está em " antes . Em ambos os casos, você está apostando na imparcialidade do seu modelo em sua capacidade de especificar o valor x do extremo com precisão infinita. A diferença entre os testes Tipo I e Tipo III também é uma adição potencialmente interessante, mas nb, eles difeririam apenas se e estiverem correlacionados, ou seja, se a centralização não tivesse ocorrido. x = 0 x = ˉ x x x 2x2x=0x=x¯xx2
gung - Restabelecer Monica
Em uma nota diferente, você pode consultar as contribuições de um usuário informando seu nome de usuário, possível com o símbolo 'at'. Por exemplo, neste caso, 'a resposta do @ whuber está bem no alvo ...' (um sentimento com o qual eu concordo.)
gung - Reinstate Monica
11
Obrigado, Emil, por contribuir com esses lembretes: ambos valem a pena ter em mente.
whuber
3

Brambor, Clark e Golder (2006) (que vem com um apêndice da Internet ) têm uma visão muito clara de como entender os modelos de interação e como evitar as armadilhas comuns, incluindo por que você deve (quase) sempre incluir os termos de ordem inferior ( "termos constitutivos") em modelos de interação.

Os analistas devem incluir todos os termos constitutivos ao especificar modelos de interação multiplicativa, exceto em circunstâncias muito raras. Por termos constitutivos, entendemos cada um dos elementos que constituem o termo de interação. [..]

O leitor deve observar, porém, que os modelos de interação multiplicativa podem assumir uma variedade de formas e envolver termos quadráticos, como ou termos de interação de ordem superior, como . Independentemente da forma que o termo de interação assumir, todos os termos constitutivos devem ser incluídos. Assim, deve ser incluído quando o termo de interação é e , , , , e devem ser incluídos quando o termo de interação é . X Z J X X 2 X Z J X Z X J Z J X Z JX2XZJXX2XZJXZXJZJXZJ

Não fazer isso pode resultar em um modelo subespecificado que levaria a estimativas tendenciosas. Isso pode levar a erros inferenciais.

Se esse for o caso, e estiver correlacionado com (ou ), como ocorrerá em praticamente qualquer circunstância das ciências sociais, a omissão do termo constitutivo resultará em estimativas tendenciosas (e inconsistentes) de , e . Embora nem sempre seja reconhecido como tal, este é um caso direto de viés variável omitido (Greene 2003, pp. 148-149).X Z X Z β 0 β 1 β 3ZXZXZβ0β1β3

landroni
fonte