Construindo uma função de perda específica do problema

Descrição do Problema

Estou iniciando a construção da rede para um problema que eu acho que poderia ter uma função de perda muito mais criteriosa do que uma simples regressão MSE.

Meu problema lida com a classificação de várias categorias ( veja minha pergunta no SO para o que quero dizer com isso), onde há uma distância ou relação definida entre as categorias que devem ser levadas em consideração.

Outro ponto é que o erro não deve ser efetuado pelo número de categorias de tiro presentes. Ou seja, o erro para 5 categorias de disparo com 0,1 de cada uma deve ser igual a 1 categoria de disparo de 0,1. ( disparando, quero dizer que eles são diferentes de zero ou acima de algum limite)

Pontos chave

classificação multi-categoria (disparo múltiplo de uma só vez)
relações entre categorias
A contagem de categorias de disparo não deve afetar a perda:

Minha tentativa

O erro quadrático médio parece ser um bom lugar para começar:

Isso é simplesmente considerar categoria por categoria, que ainda é valiosa no meu problema, mas perde grande parte da imagem.

Aqui está minha tentativa de retificar a idéia de distância entre categorias. Em seguida, gostaria de levar em consideração o número de categorias disparadas ( chame: v )

Minha pergunta

Eu tenho um histórico muito fraco em estatística; Como resultado, não tenho muitas ferramentas no meu cinto para abordar um problema como este. O tópico abrangente do que estou perguntando parece ser "Ao formar uma função de custo, como combinar várias medidas de custo? Ou que técnicas podemos aplicar para fazer isso?" . Eu também gostaria de ter quaisquer falhas no meu processo de pensamento expostas e melhoradas.

Eu valorizo ser ensinado por que meus erros são erros, em vez de ter alguém que os corrija sem explicação.

Se alguma parte desta pergunta não tiver clareza ou puder ser aprimorada, informe-me.

neural-networks loss-functions Aidan Gomez
fonte

Aidan, é bom ver tanto pensamento dedicado à construção de uma função de perda específica do problema. Eu estaria inclinado a ver isso como um problema de matemática, em vez de um problema de estatística. Você está procurando uma função de perda que leva matrizes 2x5 aos números reais e tem algumas idéias fortes sobre certos invariantes que essa função deve satisfazer, o que impõe restrições à forma funcional. Se você explicasse o significado de suas matrizes, provavelmente eu poderia oferecer algumas orientações mais específicas para criar sua função de perda.

David C. Norris

Você pode usar a perda de dobradiça, que é um limite superior para a perda de classificação; isto é, penaliza o modelo se o rótulo da categoria de pontuação mais alta for diferente do rótulo da classe de verdade do terreno.

Para mais detalhes sobre a relação entre perda de classificação e perda de dobradiça, você pode ler a Seção 2 deste artigo impressionante de CNJ Yu e T. Joachims.

Em resumo, há uma perda de tarefa , geralmente indicada por , que mede a penalidade para prever a saída da entrada quando a saída esperada (verdade da terra) é . A perda de tarefa para a classificação de várias classes é geralmente definida como . No entanto, desde que dependa apenas dos dois rótulos e , você poderá defini-lo da maneira que desejar. Em particular, pode-se ver como um arbitrário $\Delta \left( y_i, \hat{y}(x_i) \right)$ $\hat{y}(x_i)$ $x_i$ $y_i$ $\Delta \left( y_i, \hat{y}(x_i) \right) = \mathbf{1}\{ y_i \neq \hat{y}(x_i) \}$ $\Delta$ $y$ $\hat{y}$ $\Delta$ $K \times K$ matriz em que é o número de categorias e indica a penalidade de classificar uma entrada da categoria como pertencente à categoria . $K$ $\Delta(a, b)$ $a$ $b$

Por exemplo: $\\\text{input data}: \\ \{(x_1, y_1), (x_2, y_2), (x_3, y_3)\}, \quad x_i \in \mathbb{R}^d, \quad y_i \in \mathcal{Y}=\{c_1, c_2, c_3, c_4\} \\ \text{network predictions}:\\ \hat{y}(x_1)=c_2, \quad \hat{y}(x_2)=c_1, \quad \hat{y}(x_3)=c_3 \\ \text{task loss matrix}:\\ \begin{bmatrix} \Delta(y_{1}, y_{1}) & \Delta(y_{1}, y_{2}) & \Delta(y_{1}, y_{3}) & \Delta(y_{1}, y_{4}) \\ \Delta(y_{2}, y_{1}) & \Delta(y_{2}, y_{2}) & \Delta(y_{2}, y_{3}) & \Delta(y_{2}, y_{4}) \\ \Delta(y_{3}, y_{1}) & \Delta(y_{3}, y_{2}) & \Delta(y_{3}, y_{3}) & \Delta(y_{3}, y_{4}) \\ \Delta(y_{4}, y_{1}) & \Delta(y_{4}, y_{2}) & \Delta(y_{4}, y_{3}) & \Delta(y_{4}, y_{4}) \end{bmatrix} = \begin{bmatrix} 0 & 1 & 2 & 3 \\ 1 & 0 & 1 & 2 \\ 2 & 1 & 0 & 1 \\ 3 & 2 & 1 & 0 \end{bmatrix} \\ \text{classification loss assuming $\quad y_1=c_4, \quad y_2=c_1, \quad y_3=c_4$:} \\ \Delta(y_1, \hat{y}(x_1)) = \Delta(c_4, c_2) = 2 \\ \Delta(y_2, \hat{y}(x_2)) = \Delta(c_1, c_1) = 0 \\ \Delta(y_3, \hat{y}(x_3)) = \Delta(c_4, c_3) = 1 \\$

Sobi
fonte

Muito obrigado pela resposta. Adicionei um exemplo à sua pergunta (ainda pode estar em revisão por pares quando você vê esse comentário). Você pode confirmar que minha interpretação está correta?

Aidan Gomez

Entendo, isso é valioso em um problema no estilo de classificação, mas o meu é a regressão (com rótulos multidimensionais), onde várias categorias podem estar "ativadas" ao mesmo tempo. Isso parece ser semelhante a um argmax; para cada entrada, considera apenas a maior categoria de saída. No meu problema, pode-se ter um rótulo como {1,0,1,1}, onde as categorias 0, 2, 3 estão presentes nos dados, mas a categoria 1 não. Se minha rede adivinhou {0,8, 0, 0,6, 0,3}, minha perda não deve ser igual a um palpite como {0,8, 0, 0,7, 0,7}.

Aidan Gomez

Ainda acredito que minha resposta responde à sua pergunta! O que expliquei é chamado SVM Estrutural, em que o espaço de etiqueta (ou seja, o espaço em que os rótulos da verdade da terra vivem) pode ter qualquer estrutura. Parece-me que o que você quer é obtido da seguinte forma: considere um problema de classificação com categorias; definir . A única coisa é que o tamanho do seu matriz, em seguida, torna-se . No entanto, talvez você não precise especificar a matriz. Sinta-se à vontade para solicitar mais detalhes, se isso parecer responder à sua pergunta.

Y

$\mathcal{Y}$

K

$K$

Y = {0, 1}^{K}

$\mathcal{Y} = \{0, 1\}^K$

Δ

$\Delta$

2^{K} \times 2^{K}

$2^K \times 2^K$

Sobi 04/12/2015

Parece o caminho correto. Você poderia fornecer um exemplo fácil, como fizemos no caso de etiqueta unidimensional? Talvez para K = 2 ou 3 #

Aidan Gomez

Digamos que, para uma entrada a resposta correta seja mas seus classificadores prevêem . Nesse caso, estou assumindo . Você pode definir a função de perda como, por exemplo,; isso examina as previsões do classificador para todas as classes e retorna o valor de perda da classe que é o mais distante do valor de verdade da terra correspondente.

x

$x$

y = (0, 1, 1)

$y=(0, 1, 1)$

\hat{y} (x) = (0.1, 0.9, 0.8)

$\hat{y}(x)=(0.1, 0.9, 0.8)$

Δ : {0, 1}^{3} \times [0, 1]^{3} \to R

$\Delta: \{0, 1\}^3 \times [0, 1]^3 \rightarrow \mathbb{R}$

Δ (y, \hat{y}) = {max}_{k = 1}^{K} | y [k] - \hat{y} [k] |

$\Delta(y, \hat{y}) = \max_{k=1}^K |y[k] - \hat{y}[k]|$

Sobi 04/12/2015

Construindo uma função de perda específica do problema

Descrição do Problema

Pontos chave

Minha tentativa

Minha pergunta

Respostas: