Como projetar e implementar uma função de perda assimétrica para regressão?

Problema

Na regressão, geralmente calcula-se o erro quadrático médio (MSE) de uma amostra: para medir a qualidade de um preditor.

MSE = \frac{1}{n} \sum_{i = 1}^{n} {(g (x_{i}) - \hat{g} (x_{i}))}^{2}

$\text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2$

No momento, estou trabalhando em um problema de regressão em que o objetivo é prever o preço que os clientes estão dispostos a pagar por um produto, devido a vários recursos numéricos. Se o preço previsto for muito alto, nenhum cliente comprará o produto, mas a perda monetária será baixa porque o preço pode simplesmente ser diminuído. Obviamente, não deve ser muito alto, pois o produto não poderá ser comprado por um longo tempo. Por outro lado, se o preço previsto for muito baixo, o produto será comprado rapidamente, sem a chance de ajustar o preço.

Em outras palavras, o algoritmo de aprendizado deve prever preços ligeiramente mais altos que podem ser diminuídos, se necessário, em vez de subestimar o preço real, o que resultará em uma perda monetária imediata.

Questão

Como você projetaria uma métrica de erro incorporando essa assimetria de custo?

Solução possível

Uma maneira de definir uma função de perda assimétrica seria simplesmente multiplicar por um peso: com sendo o parâmetro que podemos ajustar para alterar o grau de assimetria. Eu encontrei aqui . Parece a coisa mais direta a se fazer, mantendo a perda quadrática.

\frac{1}{n} \sum_{i = 1}^{n} | α - 1_{(g (x_{i}) - \hat{g} (x_{i})) < 0} | \cdot {(g (x_{i}) - \hat{g} (x_{i}))}^{2}

$\frac{1}{n} \sum_{i=1}^n \left| \alpha - \mathbb{1}_{(g(x_i) - \widehat{g}(x_i)) < 0} \right|\cdot \left(g(x_i) - \widehat{g}(x_i)\right)^2$

α \in (0, 1)

$\alpha \in (0,1)$

regression error loss-functions Kiudee
fonte

@ MichaelChernick, FTR, acho que essa é uma boa pergunta, que foi declarada de forma clara e coerente, e reconheço que estou sendo um pouco exigente. O que estou tentando entender é (como você sabe) o ajuste de uma regressão (por exemplo, resolver ) é feito (por padrão), minimizando a função de perda de OLS , SSE. Você está certo de que o MSE poderia ser usado equivalentemente b / c, dividindo por uma constante, não afetará a ordem dos betas candidatos.

β

$\boldsymbol{\beta}$

gung - Restabelece Monica

Outro fato é que o MSE (mais frequentemente o RMSE) é frequentemente usado para avaliar a qualidade de um modelo ajustado (embora, novamente, o SSE possa ser usado de maneira equivalente). O problema é que essa questão parece (para mim mesmo) ser sobre como pensar / reprojetar a função de perda , para que os betas ajustados sejam diferentes do que teriam sido por padrão, e não sobre como pensar de maneira diferente sobre a qualidade de um modelo que já foi adequado.

gung - Restabelece Monica

@Kiudee, se minha interpretação do seu Q estiver correta, o que você pensaria em editá-lo para adicionar a tag de funções de perda e possivelmente revisar o título para algo como: "Como projetar e implementar uma função de perda assimétrica para regressão"? Eu não vou fazer as edições pessoalmente, se você não concordar com elas.

gung - Restabelece Monica

Para referência, vi regressão quantílica sugerida quando você deseja funções de perda assimétrica, consulte Berk, 2011 , PDF aqui .

Andy W

Como estou usando uma variedade de algoritmos de aprendizado para resolver esse problema, a função deve ser diferenciável pelo menos uma vez.

Kiudee

Esse tipo de ponderação desigual geralmente é realizado em problemas de classificação com duas classes. A regra de Bayes pode ser modificada usando uma função de perda que pesa a perda mais alto para um erro que o outro. Isso levará a uma regra que produz taxas de erro desiguais.

Na regressão, certamente seria possível construir uma função de peso, como uma soma ponderada de quadrados que dará algum peso aos erros negativos e um peso maior aos positivos. Isso seria semelhante ao quadrado mínimo ponderado, mas um pouco diferente porque os mínimos quadrados ponderados se destinam a problemas em que a variação do erro não é constante no espaço de valores possíveis para as variáveis preditoras. Nesse caso, os pesos são mais altos nos pontos em que a variação de erro é pequena e mais alta em que a variação de erro é grande. Obviamente, isso levará a valores para os parâmetros de regressão diferentes do que o OLS forneceria.

Michael R. Chernick
fonte

Como projetar e implementar uma função de perda assimétrica para regressão?

Problema

Questão

Solução possível

Respostas: