Muitos livros e documentos disseram que a interceptação não deve ser suprimida. Recentemente, usei um conjunto de dados de treinamento para criar um modelo de regressão linear com ou sem interceptação. Fiquei surpreso ao descobrir que o modelo sem interceptação prediz melhor do que aquele com uma interceptação em termos de rmse em um conjunto de dados de validação independente. A precisão da previsão é um dos motivos pelos quais devo usar modelos de interceptação zero?
8
Respostas:
Observe atentamente como a rmse ou outra estatística é calculada ao comparar modelos sem interceptação e modelos de interceptação. Às vezes, as suposições e cálculos são diferentes entre os dois modelos e um pode se encaixar pior, mas parece melhor porque está sendo dividido por algo muito maior.
Sem um exemplo reproduzível, é difícil dizer o que pode estar contribuindo.
fonte
Não acho que você deva escolher modelos simplesmente porque eles funcionam melhor em uma amostra específica, embora seja bom que você tenha usado uma amostra de treinamento e validação.
Em vez disso, observe o que os modelos dizem sobre sua situação. Em alguns casos, um modelo de interceptação zero faz sentido. Se o DV deve ser 0 quando todos os IVs são 0, use um modelo de interceptação zero. Caso contrário, não.
O conhecimento substancial deve guiar as estatísticas, e não o contrário
fonte
Um modelo sem interceptação pode fazer sentido se duas condições forem atendidas. Primeiro, deve haver uma expectativa razoável de conhecimento do assunto para que a interceptação seja zero. Segundo, deve haver uma expectativa razoável de conhecimento do assunto para a linha de regressão permanecer uma linha reta à medida que você se aproxima de zero. Mesmo que ambas as condições sejam atendidas, é aconselhável executar uma análise com um termo de interceptação e verificar se a interceptação não é significativamente diferente de zero.
(Suponho que você esteja falando de um Y contínuo e um X contínuo.)
fonte
Isso seria compreensível se a interceptação obtida fosse apenas ruído - não sig. diferente de zero. (Estou certo de que os coeficientes de regressão padronizados eram quase os mesmos nos dois modelos?) Se sim, acho que você não deve generalizar a partir deste exemplo. Quando interceptações são sig. e substancial, eles acrescentam algo significativo à precisão preditiva.
fonte
Na regressão linear, você está ajustando:
Você serveβ dados de treinamento ( X, Y)
Suponha que você solte o β0 0 e ajuste o modelo, será o erro no ajuste:
ser maior do que se você incluísse? Em todos os casos (não degenerados), você pode provar que o erro será o mesmo ou menor (nos dados de treinamento) quando incluirβ0 0 como o modelo é livre para usar esse parâmetro para reduzir o erro, se estiver presente e ajudar, e o definirá como zero se não ajudar. Além disso, suponha que você adicionou uma constante grande a y (suponha que sua saída precise ser+ 10000 dos dados de treinamento originais) e reinstale o modelo, depois β0 0 claramente se torna muito importante.
Talvez você esteja se referindo a modelos regularizados quando diz "suprimido". Como L1 e L2 são regularizados, esses métodos preferem manter os coeficientes próximos de zero (e você já deve ter média e variância normalizadas).X de antemão para tornar este passo sensato. Na regularização, você pode optar por incluir o termo de interceptação (devemos preferir também ter um pequenoβ0 0 ?). Novamente, na maioria dos casos (todos os casos?), É melhor não regularizarβ0 0 , uma vez que é improvável reduzir o sobreajuste e diminuir o espaço de funções representáveis (excluindo aquelas com alta β0 0 ) levando a um erro maior.
Nota lateral: a regressão logística do scikit regulariza a interceptação por padrão. Alguém sabe por que: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html ? Não acho que seja uma boa ideia .
fonte