O erro quadrático médio pode ser usado para classificação?

13

Eu sei a fórmula do erro quadrado médio e como calculá-la. Quando falamos de regressão, podemos calcular o erro médio quadrático. No entanto, podemos falar sobre um MSE para um problema de classificação e como calculá-lo?

kamaci
fonte

Respostas:

12

Muitos classificadores podem prever pontuações contínuas. Frequentemente, as pontuações contínuas são resultados intermediários que são convertidos apenas em rótulos de classe (geralmente por limite) como a última etapa da classificação. Em outros casos, por exemplo, probabilidades posteriores para a participação na classe podem ser calculadas (por exemplo, análise discriminante, regressão logística). Você pode calcular o MSE usando essas pontuações contínuas, em vez dos rótulos da classe. A vantagem disso é que você evita a perda de informações devido à dicotomização.
Quando a pontuação contínua é uma probabilidade, a métrica MSE é chamada pontuação de Brier.

No entanto, também existem problemas de classificação que são bastante problemas de regressão disfarçados. No meu campo, poderia, por exemplo, classificar os casos de acordo com o fato de a concentração de alguma substância exceder ou não um limite legal (que é um problema binário / discriminativo de duas classes). Aqui, MSE é uma escolha natural devido à natureza de regressão subjacente da tarefa.

Neste artigo, explicamos como parte de uma estrutura mais geral: C. Beleites, R. Salzer e V. Sergo:
Validação de Modelos de Classificação Macia usando Associações Parciais de Classe: Um Conceito Estendido de Sensibilidade & Co. aplicado à Classificação de Tecidos de Astrocitoma
Chemom. Intell. Lab. Syst., 122 (2013), 12-22.

Como calcular: se você trabalha no R, uma implementação está no pacote "softclassval", http: /softclassval.r-forge.r-project.org.

cbeleites descontentes com o SX
fonte
@ seanv507: muito obrigado!
cbeleites descontente com SX
1

Não vejo bem como ... a classificação bem-sucedida é uma variável binária (correta ou não), por isso é difícil ver o que você gostaria de comparar.

Geralmente, as classificações são medidas em indicadores como porcentagem correta, quando uma classificação que foi estimada a partir de um conjunto de treinamento é aplicada a um conjunto de testes que foi separado anteriormente.

O erro quadrático médio certamente pode ser (e é) calculado para previsões ou valores previstos de variáveis ​​contínuas, mas acho que não para classificações.

Peter Ellis
fonte
0

Para estimativas de probabilidade você deseja calcular não o MSE, mas a probabilidade:π^

L=iπ^iyi(1π^i)1yi

Essa probabilidade é de uma resposta binária, que é assumida como tendo uma distribuição de Bernoulli.

Se você pegar o log de e depois negar, obtém a perda logística, que é uma espécie de análogo do MSE para quando você tiver uma resposta binária. Em particular, MSE é a probabilidade de log negativa para uma resposta contínua assumida como tendo uma distribuição normal.L

user0
fonte
0

Tecnicamente, você pode, mas a função MSE não é convexa para classificação binária. Assim, se um modelo de classificação binária for treinado com a função Custo MSE, não há garantia de minimizar a função Custo . Além disso, o uso do MSE como uma função de custo pressupõe a distribuição gaussiana, que não é o caso da classificação binária.

Mostafa Nakhaei
fonte
11
Por que o MSE assumiria a distribuição gaussiana? (Ao contrário de, digamos, a regressão de mínimos quadrados usa o MSE como perda, e podemos mostrar que é ideal para problemas de regressão com resíduos normalmente distribuídos)
cbeleites infeliz com o SX
Não é ideal para classificação binária, mas ideal para regressão. A questão era para binário.
Mostafa Nakhaei
A questão não diz classificação binária . Nem diz classificação discriminativa. E ele não pergunta sobre otimização (para a qual você precisaria ser ainda mais específico sobre a situação, mesmo que dizer binário ou discriminativo com 2 classes), apenas se o MSE pode ser usado. Além disso, a pontuação de Brier é uma regra de pontuação estritamente adequada para a previsão, portanto uma explicação mais detalhada da não-otimização certamente seria útil (e possivelmente muito esclarecedora sobre quando essa não-otimização se aplica).
cbeleites descontente com SX