Costumo executar regressões a partir de um conjunto de dados baixo-n (~ 100 observações). Frequentemente, os resultados são significativos apenas com a inclusão de variáveis de controle. No entanto, muitas vezes vejo artigos de periódicos em que as pessoas (sempre com um grande número de observações) afirmam ter executado sua regressão "com e sem variáveis de controle".
Por que as pessoas costumam executar uma regressão com e sem variáveis de controle?
least-squares
ChrisStata
fonte
fonte
Respostas:
Um pouco sobre os termos primeiro. Por definição, a variável de controle é mantida constante durante o estudo, portanto você não pode usá-la em regressão. Você provavelmente quer dizer variáveis que devem ser estatisticamente controladas . Tais como covariáveis ou fatores de bloqueio (como após o delineamento experimental de blocos ao acaso)
As pessoas executam regressão ou ANOVA com essas variáveis, não apenas para eliminar seus efeitos das variáveis preditoras, mas principalmente para verificar se seus próprios efeitos são significativos. Se for significativo, sua inclusão no modelo é totalmente garantida. Caso contrário, eles podem ser melhor excluídos do modelo.
Isso é importante principalmente para um fator de bloqueio. Se você o deixar no modelo, apesar de não ser significativo, corre o risco de perder o efeito das variáveis preditoras devido à diminuição no termo Erro df , - o fator de bloqueio diminui o Erro e seu df , e parece haver uma situação competitiva. A significância dos preditores pode diminuir ou aumentar, dependendo de "o que vencer" - queda do erro soma dos quadrados da queda do seu df . Essa pode ser a razão pela qual as pessoas preferem modelos mais concisos às vezes.
Outro motivo para isso pode ser o fato de, para amostras tão moderadas quanto 100 inclusões, muitos IVs, mesmo que todos pareçam importantes ou significativos, levem ao sobreajuste .
fonte
Mais um motivo para incluir covariáveis é que elas são importantes na literatura. Se você puder demonstrar que alguma covariável que tenha tido grandes efeitos no passado (por si só ou afetando outros parâmetros) NÃO tem grandes efeitos em seu estudo, então descobriu algo interessante.
fonte
Normalmente, isso significa que há uma regressão com um resultado e uma variável de tratamento. Existem outros controles que podem ser adicionados ao modelo - outras covariáveis que podem ser importantes. Os autores primeiro executam um modelo simples que inclui apenas tratamento. Em seguida, eles conferem a robustez de seus achados à inclusão de outras variáveis. Em particular, perguntam se a inclusão de outras covariáveis reduz ou elimina o impacto estimado no modelo simples.
Além disso, a inclusão de outras covariáveis normalmente reduz erros padrão. Nesse caso, os autores podem achar que o impacto estimado é relativamente semelhante entre o modelo simples e o que inclui controles, mas somente nesse último é a estimativa significativa (geralmente diferente de 0). Os autores usariam o último modelo para realizar inferência (testes de hipóteses, intervalos de confiança) por causa de seus erros padrão menores.
fonte
Além das respostas acima, existem algumas técnicas de seleção covariável que envolvem a comparação de modelos com e sem uma variável em vigor. E se se deseja ilustrar o efeito da adição de uma covariável, o modelo bruto (não ajustado) é necessário como referência em primeiro lugar.
fonte