Usando MSE em vez de perda de log na regressão logística

9

Suponha que substituamos a função de perda da regressão logística (que normalmente é de probabilidade logarítmica) pelo MSE. Ou seja, ainda o log odds ratio seja uma função linear dos parâmetros, mas minimize a soma das diferenças quadráticas entre a probabilidade estimada e o resultado (codificado como 0/1):

registrop1-p=β0 0+β1x1+...+βnxn

e minimize vez de [ y i log p i + ( 1 - y i ) log ( 1 - p i ) ] .(yEu-pEu)2[yEuregistropEu+(1-yEu)registro(1-pEu)]

Obviamente, entendo por que a probabilidade do log faz sentido sob algumas suposições. Mas no aprendizado de máquina, onde geralmente não são feitas suposições, qual é o motivo intuitivo pelo qual o MSE é completamente irracional? (Ou há situações em que o MSE pode fazer sentido?).

max
fonte
Você pode usar o MSE como seu critério de otimização, mas, nesse caso, não deve otimizá-lo com a máxima probabilidade, mas com uma variante de descida de gradiente. Isso é basicamente o que o perceptron linear faz.
Digio 26/06

Respostas:

12

A resposta curta é que a teoria da probabilidade existe para nos guiar em direção a soluções ótimas e maximizar algo que não seja a probabilidade, a probabilidade penalizada ou a densidade posterior bayesiana resulta em estimadores abaixo do ideal. Em segundo lugar, minimizar a soma dos erros ao quadrado leva a estimativas imparciais das probabilidades reais. Aqui você não deseja estimativas imparciais, porque ter essas estimativas pode ser negativa ou maior que uma. Para restringir adequadamente as estimativas, é necessário obter estimativas ligeiramente tendenciosas (em direção ao meio) em geral, na escala de probabilidade (não no logit).

Não acredite que os métodos de aprendizado de máquina não façam suposições. Esse problema tem pouco a ver com o aprendizado de máquina.

kk[0 0,1]

Frank Harrell
fonte
4

Embora a resposta de Frank Harrell esteja correta, acho que ela perde o escopo da pergunta. A resposta para sua pergunta é sim , o MSE faria sentido em um cenário não paramétrico de ML. O equivalente ml de regressão logística é o perceptron linear, o qual não faz hipóteses e faz uso MSE como uma função de custo. Ele usa a descida gradiente on-line para o treinamento de parâmetros e, como resolve um problema de otimização convexo, as estimativas de parâmetros devem estar no nível global ideal. A principal diferença entre os dois métodos é que, com a abordagem não paramétrica, você não obtém intervalos de confiança e valores-p e, portanto, não pode usar seu modelo para inferência, apenas para previsão.

O Perceptron Linear não faz suposições probabilísticas. Há uma suposição nos dados de que eles são linearmente separáveis, mas isso não é uma suposição no modelo. Em teoria, o MSE pode ser afetado pela heterocedasticidade, mas na prática esse efeito é anulado pela função de ativação.

Digio
fonte