Estou executando modelos de regressão linear e me perguntando quais são as condições para remover o termo de interceptação.
Ao comparar os resultados de duas regressões diferentes, em que uma tem a interceptação e a outra não, percebo que o da função sem a interceptação é muito maior. Existem certas condições ou suposições que devo seguir para garantir que a remoção do termo de interceptação seja válida?
regression
linear-model
r-squared
intercept
analyticsPierce
fonte
fonte
Respostas:
A resposta mais curta : nunca , a menos que você tenha certeza de que sua aproximação linear do processo de geração de dados (modelo de regressão linear), seja por algum motivo teórico ou por qualquer outro motivo, seja forçada a passar pela origem . Caso contrário, os outros parâmetros de regressão serão enviesados, mesmo que a interceptação seja estatisticamente insignificante (estranho, mas é assim, consulte a Econometria Introdutória da Brooks, por exemplo). Finalmente, como muitas vezes explico aos meus alunos, ao deixar o termo de interceptação, você garante que o termo residual é de média zero.
Para o seu caso de dois modelos, precisamos de mais contexto. Pode acontecer que o modelo linear não seja adequado aqui. Por exemplo, você precisa registrar a transformação primeiro se o modelo for multiplicativo. Tendo processos exponencialmente crescentes, pode acontecer ocasionalmente que para o modelo sem a interceptação seja "muito" maior.R2
Rastreie os dados, teste o modelo com o teste RESET ou qualquer outro teste de especificação linear, isso pode ajudar a ver se meu palpite é verdadeiro. E construir os modelos com mais alto é uma das últimas propriedades estatísticas com as quais realmente me preocupo, mas é bom apresentar às pessoas que não estão tão familiarizadas com a econometria (existem muitos truques sujos para determinar com precisão. 1 :)).R2
fonte
A remoção da interceptação é um modelo diferente, mas há muitos exemplos em que é legítimo. As respostas até agora já discutiram em detalhes o exemplo em que a verdadeira interceptação é 0. Vou focar em alguns exemplos em que podemos estar interessados em uma parametrização atípica do modelo.
Exemplo 1: O modelo no estilo ANOVA. Para variáveis categóricas, normalmente criamos vetores binários que codificam a associação ao grupo. O modelo de regressão padrão é parametrizado como interceptar vetores dummy + k - 1. A interceptação codifica o valor esperado para o grupo "referência", ou o vetor omitido, e os vetores restantes testam a diferença entre cada grupo e a referência. Mas, em alguns casos, pode ser útil ter o valor esperado de cada grupo.
Exemplo 2: O caso de dados padronizados. Em alguns casos, pode-se estar trabalhando com dados padronizados. Nesse caso, a interceptação é 0 por design. Penso que um exemplo clássico disso foi o modelo ou fator de equações estruturais de estilo antigo, que operava apenas nas matrizes de covariância dos dados. No caso abaixo, provavelmente é uma boa ideia estimar a interceptação de qualquer maneira, apenas para diminuir o grau adicional de liberdade (que você realmente deveria ter perdido de qualquer maneira porque a média foi estimada), mas há várias situações em que construção, as médias podem ser 0 (por exemplo, certas experiências em que os participantes atribuem classificações, mas são limitadas a fornecer pontos positivos e negativos iguais).
Exemplo 3: Modelos multivariados e interceptações ocultas. Este exemplo é semelhante ao primeiro de várias maneiras. Nesse caso, os dados foram empilhados para que duas variáveis diferentes agora estejam em um vetor longo. Uma segunda variável codifica informações sobre se o vetor de resposta,,
y
pertence ampg
oudisp
. Nesse caso, para obter as interceptações separadas para cada resultado, você suprime a interceptação geral e inclui os dois vetores fictícios para a medida. Esta é uma espécie de análise multivariada. Normalmente não é feito usandolm()
porque você repetiu medidas e provavelmente deve permitir a não independência. No entanto, existem alguns casos interessantes em que isso é necessário. Por exemplo, ao tentar fazer uma análise de mediação com efeitos aleatórios, para obter a matriz de covariância de variância completa, você precisa dos dois modelos estimados simultaneamente, o que pode ser feito empilhando os dados e usando de maneira inteligente os vetores fictícios.Não estou argumentando que as interceptações geralmente devam ser removidas, mas é bom ser flexível.
fonte
Há boas respostas aqui. Duas pequenas coisas:
fonte
Você não deve interromper a interceptação, independentemente de ter ou não ver todas as variáveis explicativas com valores zero.
Há uma boa resposta para uma pergunta muito semelhante aqui .
Se você remover a interceptação, todas as outras estimativas ficarão tendenciosas. Mesmo que o valor real da interceptação seja aproximadamente zero (o que é tudo o que você pode concluir com seus dados), você estará mexendo nas pistas se forçar que seja exatamente zero.
A MENOS QUE - você está medindo algo com um modelo físico muito claro e óbvio que exige interceptação como zero (por exemplo, você tem altura, largura e comprimento de um prisma retangular como variáveis explicativas e a variável de resposta é volume com algum erro de medição). Se sua variável de resposta é o valor da casa, você definitivamente precisa deixar a interceptação em.
fonte
OK, então você mudou muito a pergunta
Você pode deixar de fora a interceptação quando souber que é 0. É isso. E não, você não pode fazê-lo porque não é significativamente diferente de 0, você precisa saber que é 0 ou que seus resíduos são tendenciosos. E, nesse caso, é 0, portanto não fará diferença se você deixar de fora ... portanto, nunca deixe de fora.
fonte
A maioria dos modelos de regressão múltipla inclui um termo constante (ou seja, a interceptação), pois isso garante que o modelo seja imparcial - ou seja, a média dos resíduos será exatamente zero. (Os coeficientes em um modelo de regressão são estimados por mínimos quadrados - ou seja, minimizando o erro quadrático médio. Agora, o erro quadrático médio é igual à variação dos erros mais o quadrado de sua média: essa é uma identidade matemática. o valor da constante no modelo altera a média dos erros, mas não afeta a variância.Portanto, se a soma dos erros ao quadrado deve ser minimizada, a constante deve ser escolhida de forma que a média dos erros seja zero. )
Em um modelo de regressão simples, a constante representa a interceptação em Y da linha de regressão, de forma não padronizada. Em um modelo de regressão múltipla, a constante representa o valor que seria previsto para a variável dependente se todas as variáveis independentes fossem simultaneamente iguais a zero - uma situação que pode não ser física ou economicamente significativa. Se você não está particularmente interessado no que aconteceria se todas as variáveis independentes fossem simultaneamente zero, normalmente você deixa a constante no modelo, independentemente de sua significância estatística. Além de garantir que os erros na amostra sejam imparciais, a presença da constante permite que a linha de regressão "busque seu próprio nível" e forneça o melhor ajuste aos dados que podem ser apenas linearmente localmente.
No entanto, em casos raros, você pode excluir a constante do modelo. Essa é uma opção de ajuste de modelo no procedimento de regressão em qualquer pacote de software e, às vezes, é chamada de regressão através da origem ou RTO, abreviando. Normalmente, isso será feito apenas se:
Um exemplo do caso (1) seria um modelo no qual todas as variáveis - dependentes e independentes - representassem primeiras diferenças de outras séries temporais. Se você estiver regredindo a primeira diferença de Y na primeira diferença de X, estará prevendo diretamente as alterações em Y como uma função linear das alterações em X, sem referência aos níveis atuais das variáveis. Nesse caso, pode ser razoável (embora não obrigatório) supor que Y deve permanecer inalterado, em média, sempre que X permanecer inalterado - ou seja, que Y não deve ter uma tendência ascendente ou descendente na ausência de qualquer alteração na nível de X.
Um exemplo do caso (2) seria uma situação em que você deseja usar um conjunto completo de variáveis de indicadores sazonais - por exemplo, você está usando dados trimestrais e deseja incluir as variáveis Q1, Q2, Q3 e Q4 representando aditivos efeitos sazonais. Assim, Q1 pode parecer 1 0 0 0 1 0 0 0 ..., Q2 pareceria 0 1 0 0 0 1 0 0 ... e assim por diante. Você não pode usar todos os quatro e uma constante no mesmo modelo, pois Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1 1. . . . , que é o mesmo que um termo constante. Ou seja, as cinco variáveis Q1, Q2, Q3, Q4 e CONSTANT não são linearmente independentes: qualquer uma delas pode ser expressa como uma combinação linear das outras quatro. Um pré-requisito técnico para ajustar um modelo de regressão linear é que as variáveis independentes sejam linearmente independentes; caso contrário, os coeficientes dos mínimos quadrados não podem ser determinados exclusivamente,
Uma palavra de advertência: o quadrado R e a estatística F não têm o mesmo significado em um modelo RTO que em um modelo de regressão comum e não são calculados da mesma maneira por todos os softwares. Veja este artigo para algumas advertências. Você não deve tentar comparar o quadrado do R entre os modelos que incluem e não incluem um termo constante, embora seja correto comparar o erro padrão da regressão.
Observe que o termo "independente" é usado (pelo menos) de três maneiras diferentes no jargão da regressão: qualquer variável única pode ser chamada de variável independente se estiver sendo usada como preditor, e não como predicado. Um grupo de variáveis é linearmente independente se nenhuma delas puder ser expressa exatamente como uma combinação linear das outras. Diz-se que um par de variáveis é estatisticamente independente se elas não forem apenas linearmente independentes, mas também totalmente não informativas uma em relação à outra. Em um modelo de regressão, você deseja que sua variável dependente seja estatisticamente dependente das variáveis independentes, que devem ser linearmente (mas não necessariamente estatisticamente) independentes entre si.
fonte
Revisão completa dos meus pensamentos. De fato, interromper a interceptação causará um problema de viés.
Você já pensou em centralizar seus dados para que uma interceptação tivesse algum significado e evitasse explicar como alguns valores (irracionais) poderiam dar valores negativos? Se você ajustar todas as três variáveis explicativas subtraindo o sqrft médio, o tamanho médio do lote e o banho médio, a interceptação agora indicará o valor (de uma casa?) Com o sdrft, o tamanho do lote e os banhos médios.
Essa centralização não altera o relacionamento relativo das variáveis independentes. Portanto, o ajuste do modelo nos dados centralizados ainda considerará os banhos insignificantes. Montar o modelo sem o banho incluído. Você ainda pode obter um valor-p grande para a interceptação, mas ele deve ser incluído e você terá um modelo no formato y = a + b (sqrft) + c (tamanho do lote).
fonte
Passei algum tempo respondendo a uma pergunta semelhante postada por outra pessoa, mas ela estava fechada. Existem ótimas respostas aqui, mas a resposta que forneço é um pouco mais simples. Pode ser mais adequado para pessoas que têm um fraco entendimento de regressão.
Q1: como interpretar a interceptação no meu modelo?
Nos modelos de regressão, o objetivo é minimizar a quantidade de variação inexplicada em uma variável de resultado:
y = b0 + b1⋅x + ϵ
onde y é o valor previsto da sua medida de resultado (por exemplo, log_blood_hg), b0 é a interceptação, b1 é a inclinação, x é uma variável preditora e ϵ é um erro residual.
A interceptação (b0) é o valor médio previsto de y quando todos x = 0. Em outras palavras, é o valor da linha de base de y, antes de você usar quaisquer variáveis (por exemplo, espécies) para minimizar ainda mais ou explicar a variação em log_blood_hg .
Ao adicionar uma inclinação (que estima como um aumento / diminuição de uma unidade em log_blood_hg muda com um aumento de uma unidade em x, por exemplo, espécies), adicionamos o que já sabemos sobre a variável de resultado, que é seu valor de linha de base (por exemplo, interceptação), com base na mudança em outra variável.
Q2: Quando é apropriado incluir ou não a interceptação, principalmente no que diz respeito ao fato de os modelos apresentarem resultados muito diferentes?
Para modelos simples como esse, nunca é realmente apropriado interromper a interceptação.
Os modelos apresentam resultados diferentes quando você interrompe a interceptação porque, em vez de aterrar a inclinação no valor da linha de base de Y, ela é forçada a passar pela origem de y, que é 0. Portanto, a inclinação fica mais íngreme (ou seja, mais poderosa e significativa ) porque você forçou a linha através da origem, não porque faz um trabalho melhor de minimizar a variação em y. Em outras palavras, você criou artificialmente um modelo que minimiza a variação em y removendo a interceptação ou o ponto de aterramento inicial do seu modelo.
Há casos em que a remoção da interceptação é apropriada - como ao descrever um fenômeno com uma interceptação 0. Você pode ler sobre isso aqui , além de outras razões pelas quais remover uma interceptação não é uma boa ideia.
fonte
Conclusão: NÃO DEIXE O INTERCEPTO FORA DO MODELO (a menos que você realmente saiba realmente o que está fazendo).
Existem também modelos especiais que deixam de fora a interceptação. Um exemplo são dados emparelhados, estudos com gêmeos .
fonte