Quando se deve incluir uma variável em uma regressão, apesar de não ser estatisticamente significativa?

37

Eu sou um estudante de economia com alguma experiência com econometria e R. Eu gostaria de saber se existe alguma situação em que devemos incluir uma variável em uma regressão, apesar de não ser estatisticamente significativa?

EconJohn
fonte
11
Na pesquisa médica, você o incluiria se envolver interações qualitativas. Veja o trabalho de Lacey Gunter a que me referi aqui antes. Também o livro de Chakraborty e Moodie, publicado pela Springer em 2013. O título é Métodos Estatísticos para Regimes de Tratamento Dinâmico: Aprendizado por Reforço, Inferência Causal e Medicina Personalizada.
Michael R. Chernick
11
Considere também que a significância estatística é completamente arbitrária. O que é significativo? 0,05? 0,1? 0,001? Se o fundamento teórico existe para incluir um preditor, isso é motivo suficiente para mantê-lo.
Ashe
2
Quando você diz "não estatisticamente significativo", percebe que está no nível de 5% de confiança, o que é uma escolha arbitrária? (E quanto mais variáveis ​​houver, você terá o problema de testes múltiplos).
SMCI
11
@smci 0,05 = nível de significância de 5% corresponde a nível de confiança de 95%, razão suficiente para evitar misturar os termos na mesma frase. Como existem procedimentos de significância sem um intervalo de confiança à vista, geralmente é mais fácil usar o termo que for mais pertinente. As exceções são quando você está explicando o link em um nível introdutório.
Nick Cox

Respostas:

30

Sim!

O fato de um coeficiente ser estatisticamente indistinguível de zero não implica que o coeficiente seja realmente zero, que o coeficiente é irrelevante. O fato de um efeito não passar por um corte arbitrário para significância estatística não implica que não se deva tentar controlá-lo.

De um modo geral, o problema em questão e o design da sua pesquisa devem orientar o que incluir como regressores.

Alguns exemplos rápidos:

E não tome isso como uma lista exaustiva. Não é difícil conseguir toneladas mais ...

1. Efeitos fixos

Uma situação em que isso geralmente ocorre é uma regressão com efeitos fixos .

Digamos que você tenha dados em painel e deseje estimar no modelo:b

yEut=bxEut+vocêEu+ϵEut

Estimar este modelo com mínimos quadrados ordinários onde são tratados como efeitos fixos é equivalente a executar mínimos quadrados ordinários com uma variável indicadora para cada indivíduo . euvocêEuEu

De qualquer forma, o ponto é que as variáveis (ou seja, os coeficientes nas variáveis ​​indicadoras) são frequentemente mal estimadas. Qualquer efeito fixo individual é frequentemente estatisticamente insignificante. Mas você ainda inclui todas as variáveis ​​indicadoras na regressão se estiver considerando efeitos fixos.u ivocêEuvocêEu

(Observe também que a maioria dos pacotes de estatísticas nem sequer fornece os erros padrão para efeitos fixos individuais quando você usa os métodos internos. Você realmente não se importa com o significado de efeitos fixos individuais. Você provavelmente se preocupa com o significado coletivo deles. .)

2. Funções que andam juntas ...

(a) Ajuste de curva polinomial (dica de chapéu @NickCox nos comentários)

Se você estiver ajustando um polinômio de º grau a alguma curva, quase sempre incluirá termos polinomiais de ordem inferior.k

Por exemplo, se você estivesse ajustando um polinômio de 2ª ordem, você executaria:

yEu=b0 0+b1 1xEu+b2xEu2+ϵEu

Normalmente, seria bastante estranho forçar e executar y i = b 0 + b 2 x 2 i + ϵ ib1 1=0 0

yEu=b0 0+b2xEu2+ϵEu

mas os estudantes de mecânica newtoniana poderão imaginar exceções.

b) Modelos RA (p):

Digamos que você esteja estimando um modelo de AR (p), incluindo também os termos de ordem inferior. Por exemplo, para um AR (2), você executaria:

yt=b0 0+b1 1yt-1 1+b2yt-2+ϵt

E seria estranho executar:

yt=b0 0+b2yt-2+ϵt

c) Funções trigonométricas

Como o @NickCox menciona, os termos e tendem a andar juntos. Para mais informações, consulte, por exemplo, este documento .pecadocospecado

Mais amplamente...

Você deseja incluir variáveis ​​do lado direito quando houver boas razões teóricas para fazê-lo.

E, como discutem outras respostas aqui e no StackExchange, a seleção de variáveis ​​passo a passo pode criar vários problemas estatísticos.

Também é importante distinguir entre:

  • um coeficiente estatisticamente indistinguível de zero com um pequeno erro padrão.
  • um coeficiente estatisticamente indistinguível de zero com um grande erro padrão.

Neste último caso, é problemático argumentar que o coeficiente não importa. Pode simplesmente ser mal medido.

Matthew Gunn
fonte
Tocando em seu primeiro exemplo, a razão pela qual mantemos no modelo parece ser que a interpretação de muda se está no modelo ou não. (Veja, por exemplo, en.wikipedia.org/wiki/Partial_regression_plot - usamos algo como a frase "controlando os efeitos lineares de "). Nesta situação, não temos no modelo por sua importância, temos pela interpretação que ela nos fornece. b u i u i u ivocêEubvocêEuvocêEuvocêEu
user795305
5
Algumas respostas muito boas que, no entanto, já se sobrepõem um pouco demais, então vou limitar meus exemplos a um comentário aqui. Ajuste polinomial : geralmente, um quadrático deve quase sempre ser ajustado por um ato duplo de termos lineares e quadrados. Mesmo que apenas um termo seja significativo nos níveis convencionais, seu efeito conjunto é fundamental. Preditores trigonométricos Da mesma forma, seno e cosseno geralmente pertencem um ao outro, mesmo que não se qualifique nos níveis convencionais. Atos duplos devem ser montados como tal.
Nick Cox
2
@NickCox Como este é um wiki da comunidade e seu ponto de vista é diretamente relevante ao mencionado aqui, acho que seu comentário merece ser editado na resposta em um momento apropriado. É muito importante manter-se um mero comentário, na minha opinião, embora eu acho que você está certo de que não seria melhor como uma resposta free-standing
Silverfish
@Silverfish Matthew é bem-vindo para copiá-lo. Parece um pouco presunçoso para mim editá-lo, no entanto.
Nick Cox
11
@NickCox Haha, eu não ligo. :) Adicionei suas sugestões e fique à vontade para editar !.
Matthew Gunn
14

Sim, existem. Qualquer variável que possa se correlacionar com sua variável de resposta de maneira significativa, mesmo em um nível estatisticamente insignificante, pode confundir sua regressão se ela não estiver incluída. Isso é conhecido como subespecificação e leva a estimativas de parâmetros que não são tão precisas quanto poderiam ser.

https://onlinecourses.science.psu.edu/stat501/node/328

De cima:

Um modelo de regressão é subespecificado (resultado 2) se a equação de regressão estiver faltando uma ou mais variáveis ​​preditivas importantes. Essa situação é talvez o pior cenário, porque um modelo subespecificado gera coeficientes de regressão tendenciosos e previsões tendenciosas da resposta. Ou seja, ao usar o modelo, subestimamos ou superestimamos consistentemente as inclinações da população e os meios da população. Para piorar as coisas ruins, o erro quadrático médio MSE tende a superestimar σ², produzindo intervalos de confiança mais amplos do que deveria.

problema em dobro
fonte
4
Isso não é bem verdade. Para ser uma variável de confusão, é necessário causar a variável explicada e a (s) variável (s) explicativa (s) de interesse. Se as variáveis ​​explicativas de interesse causam a variável e influenciam o resultado, é uma variável interveniente e você não deve controlá-la (a menos que queira decompor o efeito total).
Maarten Buis 03/04
11
Esta é uma discussão muito inadequada sobre o tema do controle da confusão. A correlação com o resultado não é uma condição suficiente para confusão e pode levar a erros na especificação de modelos causais, controlando os mediadores: isso leva a falácias como "a cessação do tabagismo não reduz o risco de doença cardiovascular após o controle do cálcio arterial coronariano (CAC)". A CAC é a principal maneira de fumar causa doenças cardíacas. Veja Causalidade por Pearl, 2ª ed, capítulo 3, seção 3.
AdamO
Sinta-se livre para editar. Não achei que ele estivesse procurando esse tipo de profundidade na resposta, desculpas se minha brevidade levou a uma imprecisão grosseira.
DoubleTrouble
11

Geralmente, você não inclui ou exclui variáveis ​​para regressão linear devido à sua significância. Você os inclui porque supõe que as variáveis ​​selecionadas são (boas) preditores dos critérios de regressão. Em outras palavras, a seleção de preditores é baseada na teoria.

A insignificância estatística na regressão linear pode significar duas coisas (das quais eu sei):

  1. Os preditores insignificantes não estão relacionados aos critérios. Exclua-os, mas tenha em mente que a insignificância não prova que eles não são relacionados. Verifique sua teoria.
  2. Os preditores são insignificantes porque podem ser expressos em função de outros preditores. O conjunto de preditores é chamado multicolinear. Isso não torna os preditores "ruins" em nenhum sentido, mas redundantes.

Um motivo válido para excluir preditores insignificantes é que você está procurando o menor subconjunto de preditores que explique a variação de critérios ou a maioria deles. Se você o encontrou, verifique sua teoria.

Wolfgang
fonte
[P] reditores dos critérios de regressão ? Você pode reformular isso.
Richard Hardy
8

Na econometria, isso acontece à esquerda e à direita. Por exemplo, se você estiver usando manequins trimestrais de sazonalidade Q2, Q3 e Q4, acontece frequentemente que, como grupo, eles são significativos, mas alguns deles não são significativos individualmente. Nesse caso, você geralmente guarda todos eles.

yxzzxz

ATUALIZAÇÃO: Outro exemplo comum é a previsão. A econometria é geralmente ensinada da perspectiva da inferência nos departamentos de economia. Na perspectiva da inferência, muita atenção está nos valores-p e na significância, porque você está tentando entender o que causa o que e assim por diante. Na previsão, não há muita ênfase nesse material, porque tudo o que você importa é quão bem o modelo pode prever a variável de interesse.

Isso é semelhante aos aplicativos de aprendizado de máquina, btw, que estão entrando na economia recentemente. Você pode ter um modelo com todas as variáveis ​​significativas que não prevejam bem. No ML, é frequentemente associado ao chamado "ajuste excessivo". Há muito pouco uso desse modelo na previsão, obviamente.

Aksakal
fonte
11
Isso parece um pouco exagerado em alguns momentos. Por exemplo, é evidente até para mim, como não economista, apenas dos livros didáticos que a previsão tem sido amplamente ensinada aos economistas há pelo menos algumas décadas. Se houve um aumento "recente" (significando precisamente?) É um ponto mais sutil que deixo para quem está de dentro.
Nick Cox
@NickCox, concordou, parecia que não havia previsão alguma nos currículos, o que não é verdade.
Aksakal
7

Você está fazendo duas perguntas diferentes:

  1. Quando a significância estatística não importa?
  2. Quando devemos incluir uma variável em uma regressão, apesar de não ser estatisticamente significativa?

Editar: isso era verdade sobre a postagem original, mas pode não ser mais verdadeira após as edições.


Em relação ao primeiro trimestre, acho que está na fronteira de ser muito amplo. Existem muitas respostas possíveis, algumas já fornecidas. Mais um exemplo é ao criar modelos para previsão (consulte a fonte citada abaixo para obter uma explicação).


Em relação ao segundo trimestre, a significância estatística não é um critério sólido para a construção do modelo. Rob J. Hyndman escreve o seguinte em sua postagem no blog "Testes estatísticos para seleção de variáveis" :

A significância estatística geralmente não é uma boa base para determinar se uma variável deve ser incluída em um modelo, apesar do fato de muitas pessoas que deveriam conhecer melhor usá-las exatamente para esse fim. <...> Os testes estatísticos foram projetados para testar hipóteses, não para selecionar variáveis.

Observe também que muitas vezes você pode encontrar algumas variáveis ​​que são estatisticamente significativas apenas por acaso (a chance é controlada por sua escolha do nível de significância). A observação de que uma variável é estatisticamente significativa não é suficiente para concluir que a variável pertence ao modelo.

Richard Hardy
fonte
4

Vou adicionar outro "sim". Sempre fui ensinado - e tentei passar adiante - que a principal consideração na escolha covariável é o conhecimento do domínio, não a estatística. Em bioestatística, por exemplo, se estou modelando algum resultado de saúde em indivíduos, não importa o que a regressão diz, você precisará de alguns argumentos muito bons para não incluir idade, raça e sexo no modelo.

Também depende da finalidade do seu modelo. Se o objetivo é entender melhor quais fatores estão mais associados ao seu resultado, a construção de um modelo parcimonioso tem algumas virtudes. Se você se importa com a previsão e não tanto com o entendimento, a eliminação de covariáveis ​​pode ser uma preocupação menor.

(Finalmente, se você planeja usar estatísticas para seleção de variáveis, confira o que Frank Harrell tem a dizer sobre o assunto - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ e seu livro Regression Modeling Strategies . Resumidamente, quando você usa estratégias estatísticas passo a passo ou similares para escolher os melhores preditores, qualquer teste de "esses bons preditores?" é terrivelmente tendencioso - é claro que eles ' como bons preditores, você os escolheu nessa base e, portanto, os valores de p para esses preditores são falsamente baixos.)

eac2222
fonte
11
R2
4

A única coisa que o resultado da "insignificância estatística" realmente diz é que, no nível selecionado de erro do Tipo I, não podemos nem dizer se o efeito do regressor na variável dependente é positivo ou negativo (veja este post).

Portanto, se mantivermos esse regressor, qualquer discussão sobre seu próprio efeito na variável dependente não possui evidências estatísticas para respaldá-lo.

Mas essa falha de estimativa não diz que o regressor não pertence à relação estrutural, apenas diz que, com o conjunto de dados específico, não conseguimos determinar com alguma certeza o sinal de seu coeficiente.

Portanto, em princípio, se houver argumentos teóricos que apóiam sua presença, o regressor deve ser mantido.

Outras respostas aqui forneceram modelos / situações específicos para os quais esses regressores são mantidos na especificação, por exemplo, a resposta que menciona o modelo de dados do painel de efeitos fixos.

Alecos Papadopoulos
fonte
Por que arrastar "nível de confiança" para uma discussão de importância? Eu frequentemente leio monstruosidades em textos e papéis ruins, como "significantes no nível de confiança de 99%". Certamente, existe uma relação entre as idéias, mas você não precisa dessa redação (que no nível elementar confunde tanto quanto ela explica).
Nick Cox
@ Nick Cox Você tem razão. Eu mudei para "Erro tipo I".
Alecos Papadopoulos
1

Você pode incluir uma variável de interesse particular se esse for o foco da pesquisa, mesmo que não seja estatisticamente significativo. Além disso, em bioestatística, o significado clínico é frequentemente diferente do significado estatístico.

Scott Jackson
fonte