Qual é a diferença entre uma função de perda e uma função de decisão?

23

Vejo que ambas as funções fazem parte de métodos de mineração de dados, como os Gradress Boosting Regressors. Vejo que esses também são objetos separados.

Como é a relação entre os dois em geral?

www.pieronigro.de
fonte

Respostas:

45

Uma função de decisão é uma função que recebe um conjunto de dados como entrada e fornece uma decisão como saída. O que a decisão pode ser depende do problema em questão. Exemplos incluem:

  • Problemas de estimativa: a "decisão" é a estimativa.
  • Problemas no teste de hipóteses: a decisão é rejeitar ou não a hipótese nula.
  • Problemas de classificação: a decisão é classificar uma nova observação (ou observações) em uma categoria.
  • Problemas de seleção de modelos: a decisão é escolher um dos modelos candidatos.

Normalmente, há um número infinito de funções de decisão disponíveis para um problema. Se, por exemplo, estivermos interessados ​​em estimar a altura dos homens suecos com base em dez observações , podemos usar qualquer uma das seguintes funções de decisão d ( x ) :x=(x1,x2,,x10)d(x)

  • d(x)=110i=110xi
  • d(x)=median(x)
  • d(x)=x1x1010
  • The function that always returns 1: d(x)=1, regardless of the value of x. Silly, yes, but it is nevertheless a valid decision function.

How then can we determine which of these decision functions to use? One way is to use a loss function, which describes the loss (or cost) associated with all possible decisions. Different decision functions will tend to lead to different types of mistakes. The loss function tells us which type of mistakes we should be more concerned about. The best decision function is the function that yields the lowest expected loss. What is meant by expected loss depends on the setting (in particular, whether we are talking about frequentist or Bayesian statistics).

In summary:

  • Decision functions are used to make decisions based on data.
  • Loss functions are used to determine which decision function to use.
MånsT
fonte
Para funções de decisão paramétricas (por exemplo: regressão logística, decisão de limiar), você basicamente tem uma função possível para cada combinação de parâmetros, e a função de perda é usada para encontrar a melhor. Exemplo comum: se você usar a descida gradiente para explorar o espaço do parâmetro, derivará a perda com relação aos parâmetros e descerá para um mínimo (local) da perda.
pixelou
7

The loss function is what is minimized to obtain a model which is optimal in some sense. The model itself has a decision function which is used to predict.

For example, in SVM classifiers:

  • loss function: minimizes error and squared norm of the separating hyperplane L(w,ξ)=12w2+Ciξi
  • decision function: signed distance to the separating hyperplane: f(x)=wTx+b
Marc Claesen
fonte
Isn´t the norm equal to the distance, or do i mix up something here... So the decision function is always a part of the loss function i use to "compare" to the real values i try to fix a model to? And the goal is minimizing this "difference"?
www.pieronigro.de
@Hiatus the norm of the separating hyperplane (which is being optimized when training an SVM) is not used in the decision function. The hyperplane itself is used. Minimizing the norm during training is basically a form of regularization.
Marc Claesen
It would be better to give a more generic answer that isn't tied to any specific classifier.
smci