Estou tentando prever uma variável de resposta na regressão linear que deve ser sempre positiva (custo por clique). É uma quantia monetária. No adwords, você paga ao google pelos cliques nos seus anúncios, e um número negativo significa que o google paga quando as pessoas clicam: P
Os preditores são todos valores contínuos. O Rsquared e o RMSE são decentes quando comparados a outros modelos, mesmo fora da amostra:
RMSE Rsquared
1.4141477 0.8207303
Não posso redimensionar as previsões, porque é dinheiro, portanto, mesmo um pequeno fator de redimensionamento pode alterar os custos significativamente.
Até onde eu entendo, para o modelo de regressão não há nada de especial em números zero e negativos; portanto, ele encontra o melhor hiperplano de regressão, independentemente de a saída ser parcialmente negativa.
Esta é uma primeira tentativa, usando todas as variáveis que tenho. Portanto, há espaço para aperfeiçoamento.
Existe alguma maneira de dizer ao modelo que a saída não pode ser negativa?
fonte
Respostas:
Suponho que você esteja usando o estimador OLS nesse modelo de regressão linear. Você pode usar o estimador de mínimos quadrados com restrição de desigualdade , que será a solução para um problema de minimização sob restrições de desigualdade. Usando a notação matricial padrão (vetores são vetores de coluna), o problema de minimização é declarado como
... onde é , é , é e é a matriz contém a série de regressores fora da amostra de comprimento que são usados para previsão. Temos restrições de desigualdade lineares (e a função objetivo é convexa, portanto as condições de primeira ordem são suficientes para um mínimo). n × 1 X n × k β k × 1 Z m × k my n×1 X n×k β k×1 Z m×k m m
O lagrangeano deste problema é
onde é um vetor de coluna de multiplicadores não negativos de Karush-Kuhn-Tucker. As condições de primeira ordem são (convém revisar regras para diferenciação de matriz e vetor)λ m×1
... onde , por conveniência, e é o estimador que da estimativa de mínimos quadrados comuns.p O G Sξ=12λ β^OLS
O método é totalmente elaborado em Liew (1976) .
fonte