Valores negativos nas previsões para uma variável de resposta sempre positiva na regressão linear

8

Estou tentando prever uma variável de resposta na regressão linear que deve ser sempre positiva (custo por clique). É uma quantia monetária. No adwords, você paga ao google pelos cliques nos seus anúncios, e um número negativo significa que o google paga quando as pessoas clicam: P

Os preditores são todos valores contínuos. O Rsquared e o RMSE são decentes quando comparados a outros modelos, mesmo fora da amostra:

  RMSE        Rsquared 
1.4141477     0.8207303

Não posso redimensionar as previsões, porque é dinheiro, portanto, mesmo um pequeno fator de redimensionamento pode alterar os custos significativamente.

Até onde eu entendo, para o modelo de regressão não há nada de especial em números zero e negativos; portanto, ele encontra o melhor hiperplano de regressão, independentemente de a saída ser parcialmente negativa.

Esta é uma primeira tentativa, usando todas as variáveis ​​que tenho. Portanto, há espaço para aperfeiçoamento.

Existe alguma maneira de dizer ao modelo que a saída não pode ser negativa?

usillos
fonte
6
Você pode garantir previsões positivas usando um modelo linear generalizado com a função de link logarítmico. A propósito, embora seu valor de seja bastante encorajador, uma melhor verificação para saber se o modelo segue a forma principal dos dados é um gráfico de residual versus previsto. Gráficos de observado vs previsto também podem ajudar a esclarecer seu problema. R2
Nick Cox
1
@NickCox deu uma sugestão. Eu plotaria os dados de mais maneiras do que apenas residual versus previsto. No entanto, você certamente pode redimensionar variáveis ​​de dinheiro. Um método comum é considerar o log (custo) como a variável dependente. (Acho que isso acaba equivalente à função de link de log, mas pode ser mais fácil de entender). Log (custo) pode, é claro, ser negativo. E os registros de variáveis ​​monetárias geralmente são sensatos porque, por exemplo, uma diferença entre 0,01 e 0,02 por clique é importante, mas a diferença entre 1,01 e 10,2 por clique não é.
Peter Flom
@ Peter Flom acho que significava 1.02 e não 10.2.
Nick Cox
1
Uma pequena amostra de dados ajudaria as pessoas a ilustrar possíveis soluções.
Glen_b -Reinstala Monica 13/10

Respostas:

4

Suponho que você esteja usando o estimador OLS nesse modelo de regressão linear. Você pode usar o estimador de mínimos quadrados com restrição de desigualdade , que será a solução para um problema de minimização sob restrições de desigualdade. Usando a notação matricial padrão (vetores são vetores de coluna), o problema de minimização é declarado como

minβ(yXβ)(yXβ)s.t.Zβ0

... onde é , é , é e é a matriz contém a série de regressores fora da amostra de comprimento que são usados ​​para previsão. Temos restrições de desigualdade lineares (e a função objetivo é convexa, portanto as condições de primeira ordem são suficientes para um mínimo). n × 1 X n × k β k × 1 Z m × k myn×1Xn×kβk×1Zm×kmm

O lagrangeano deste problema é

L=(yXβ)(yXβ)λZβ=yyyXββXy+βXXβλZβ

=yy2βXy+βXXβλZβ

onde é um vetor de coluna de multiplicadores não negativos de Karush-Kuhn-Tucker. As condições de primeira ordem são (convém revisar regras para diferenciação de matriz e vetor)λm×1

Lβ=02Xy+2XXβZλ

β^R=(XX)1Xy+12(XX)1Zλ=β^OLS+(XX)1Zξ[1]

... onde , por conveniência, e é o estimador que da estimativa de mínimos quadrados comuns.p O G Sξ=12λβ^OLS

O método é totalmente elaborado em Liew (1976) .

Alecos Papadopoulos
fonte
3
Eu votei positivo porque é uma solução legítima, mas é arriscada na prática. Afinal, a solução é arbitrariamente sensível aos valores de : um único valor de alta alavancagem afastará as estimativas de um ajuste decente apenas para impor a restrição. Assim, no mínimo, esse procedimento deve ser acompanhado de um cuidadoso teste de qualidade dos dados. Z
whuber
@whuber Você está certo. Então, OP, pise com cuidado aqui.
Alecos Papadopoulos