Imagine
- Você executa uma regressão linear com quatro preditores numéricos (IV1, ..., IV4)
- Quando apenas IV1 é incluído como preditor, o beta padronizado é
+.20
- Quando você também inclui IV2 a IV4, o sinal do coeficiente de regressão padronizado de IV1 muda para
-.25
(isto é, tornou-se negativo).
Isso gera algumas perguntas:
- Com relação à terminologia, você chama isso de "efeito supressor"?
- Quais estratégias você usaria para explicar e entender esse efeito?
- Você tem algum exemplo de tais efeitos na prática e como você explicou e entendeu esses efeitos?
regression
predictor
Jeromy Anglim
fonte
fonte
Respostas:
A multicolinearidade é o suspeito usual, como JoFrhwld mencionou. Basicamente, se suas variáveis estiverem correlacionadas positivamente, os coeficientes serão correlacionados negativamente, o que pode levar a um sinal errado em um dos coeficientes.
Uma verificação seria executar uma regressão de componentes principais ou regressão de crista. Isso reduz a dimensionalidade do espaço de regressão, manipulando a multicolinearidade. Você acaba com estimativas tendenciosas, mas um MSE possivelmente mais baixo e sinais corrigidos. Se você acompanha esses resultados específicos ou não, é uma boa verificação de diagnóstico. Se você ainda receber alterações de sinal, pode ser teoricamente interessante.
ATUALIZAR
Após o comentário na resposta de John Christie, isso pode ser interessante. A reversão na associação (magnitude ou direção) são exemplos dos efeitos de Paradoxo de Simpson, Paradoxo de Lord e Supressão. As diferenças estão essencialmente relacionadas ao tipo de variável. É mais útil entender o fenômeno subjacente do que pensar em termos de um "paradoxo" ou efeito específico. Para uma perspectiva causal, o artigo abaixo explica bem o porquê e cito detalhadamente sua introdução e conclusão para estimular seu apetite.
fonte
Acredito que efeitos como esses são freqüentemente causados por colinearidade (veja esta pergunta ). Eu acho que o livro sobre modelagem multinível de Gelman e Hill fala sobre isso. O problema é que
IV1
está correlacionado com um ou mais dos outros preditores e, quando todos são incluídos no modelo, sua estimativa se torna irregular.Se o inversão do coeficiente é devido à colinearidade, não é realmente interessante relatar, porque não é devido à relação entre seus preditores e o resultado, mas realmente devido à relação entre preditores.
O que vi sugerido para resolver esse problema é a residualização. Primeiro, você ajusta um modelo e
IV2 ~ IV1
, em seguida, toma os resíduos desse modelo comorIV2
. Se todas as suas variáveis estiverem correlacionadas, você deve realmente residualizar todas elas. Você pode optar por fazer isso assimAgora, ajuste o modelo final com
Agora, o coeficiente para
rIV2
representa o efeito independente deIV2
dada sua correlação comIV1
. Ouvi dizer que você não obterá o mesmo resultado se você se restabelecer em uma ordem diferente, e que escolher a ordem de residualização é realmente um julgamento na sua pesquisa.fonte
O
e seus preditores sãoIncome
eFather's Income
. O fato queIncome
está correlacionadoFather's Income
é intrinsecamente interessante, mas esse fato seria verdadeiro, não importa o valor deO
. Ou seja, você pode estabelecer queO
os preditores são todos colineares, sem nunca coletar os dados do resultado, ou mesmo saber qual é o resultado! Esses fatos não devem ficar especialmente mais interessantes quando você souber queO
é realmenteEducation
.Veja Paradoxo de Simpson . Em resumo, o principal efeito observado pode reverter quando uma interação é adicionada a um modelo. Na página vinculada, a maioria dos exemplos é categórica, mas há uma figura no topo da página que se poderia imaginar continuamente. Por exemplo, se você tiver um preditor categórico e contínuo, o preditor contínuo poderá virar facilmente o sinal se o categórico for adicionado e, em cada categoria, o sinal for diferente do da pontuação geral.
fonte