Minimizar o erro ao quadrado é equivalente a minimizar o erro absoluto? Por que o erro quadrado é mais popular que o último?

39

Ao realizarmos regressão linear para encaixar um grupo de pontos de dados ( x 1 , y 1 ) , ( x 2 , Y 2 ) , . . . , ( x n , y n ) , a abordagem clássica minimiza o erro ao quadrado. Há muito tempo fico intrigado com uma pergunta que minimizará o erro ao quadrado resultará no mesmo resultado que minimizará o erro absolutoy=ax+b(x1,y1),(x2,y2),...,(xn,yn)? Caso contrário, por que minimizar o erro ao quadrado é melhor? Existe algum outro motivo além de "a função objetivo é diferenciável"?

O erro quadrado também é amplamente usado para avaliar o desempenho do modelo, mas o erro absoluto é menos popular. Por que o erro ao quadrado é mais comumente usado que o erro absoluto? Se a derivada não está envolvida, calcular o erro absoluto é tão fácil quanto calcular o erro ao quadrado, então por que o erro ao quadrado é tão prevalente ? Existe alguma vantagem única que possa explicar sua prevalência?

Obrigado.

Tony
fonte
Sempre há algum problema de otimização e você deseja calcular gradientes para encontrar o mínimo / o máximo.
Vladislavs Dovgalecs
11
para x ( - 1 , 1 ) e x 2 > | x | se | x | > 1 . Assim, o erro ao quadrado penaliza os erros maiores mais do que o erro absoluto e perdoa mais os erros pequenos do que o erro absoluto. Isso está de acordo com o que muitos pensam ser uma maneira apropriada de fazer as coisas. x2<|x|x(1,1)x2>|x||x|>1
usar o seguinte código

Respostas:

47

Minimizar erros quadrados (MSE) definitivamente não é o mesmo que minimizar desvios absolutos (MAD) de erros. MSE fornece a resposta média de condicionado em x , enquanto MAD fornece a resposta mediana de y condicionado em x .yxyx

Historicamente, Laplace originalmente considerava o erro máximo observado como uma medida da correção de um modelo. Ele logo passou a considerar MAD em seu lugar. Devido à sua incapacidade de resolver exatamente as duas situações, ele logo considerou o diferencial MSE. Ele e Gauss (aparentemente ao mesmo tempo) derivaram as equações normais, uma solução de forma fechada para esse problema. Atualmente, resolver o MAD é relativamente fácil por meio de programação linear. Como é sabido, no entanto, a programação linear não possui uma solução de forma fechada.

Do ponto de vista da otimização, ambos correspondem a funções convexas. No entanto, o MSE é diferenciável, portanto, permitindo métodos baseados em gradiente, muito eficientes do que seus colegas não diferenciáveis. MAD não é diferenciável em .x=0 0

Uma outra razão teórica é que, em um cenário bayesiano, ao assumir anteriores uniformes dos parâmetros do modelo, o MSE gera erros distribuídos normais, que foram tomados como prova de correção do método. Os teóricos gostam da distribuição normal porque acreditam que é um fato empírico, enquanto os experimentais gostam disso porque acreditam que é um resultado teórico.

Uma razão final da razão pela qual MSE pode ter tido a ampla aceitação que tem é que ela se baseia na distância euclidiana (na verdade, é uma solução do problema de projeção em um espaço banach euclidiano) que é extremamente intuitiva, dada a nossa realidade geométrica.

Asterion
fonte
1
(+1) para a referência a Laplace!
Xi'an
2
"Os teóricos gostam da distribuição normal porque acreditam que é um fato empírico, enquanto os experimentais gostam disso porque acreditam que é um resultado teórico". -- Eu amo isso. Mas também não existem aplicações físicas diretas para a distribuição gaussiana? E há também o material sobre distribuições entropia máxima
shadowtalker
8
@ssdecontrol Acho que o epigrama se deve a Henri Poincaré há pouco mais de cem anos. Sobre o mundo e os argumentos correspondentes, eu desabilito o meu M. Lippmann, os especialistas em carros que imaginam o que é um dos temas de matemática, e os que têm mais experiência positiva. "Todo mundo tem certeza disso [que os erros normalmente são distribuídos], o Sr. Lippman me disse um dia, já que os experimentalistas acreditam que é um teorema matemático e os matemáticos que é um fato determinado experimentalmente". de Calcul des probabilités (2ª ed., 1912), p. 171
Dilip Sarwate
1
Aqui está uma resposta matemática. Se tivermos uma matriz de dados de variáveis ​​independentes X e uma matriz de coluna Y, se houver uma matriz b com a propriedade Xb = Y, teremos um soln. Normalmente, não podemos e queremos o b mais próximo de uma solução exata. Como matemática, isso é 'fácil' de resolver. É a projeção de Y no espaço da coluna de X. As noções de projeção e perpendicular etc. dependem da métrica. A métrica L2 euclidiana usual é o que estamos acostumados e fornece os mínimos quadrados. A propriedade minimizadora de mse é uma reafirmação do fato de termos projeção.
precisa saber é o seguinte
1
Eu pensei que o desacordo prioritário era entre Gauss e Legendre, com Legendre precedendo Gauss na publicação, mas Gauss precedendo Legendre na correspondência informal. Também estou (vagamente) ciente de que a prova de Laplace é considerada superior. Alguma referência sobre isso?
PatrickT
31

Como explicação alternativa, considere a seguinte intuição:

Ao minimizar um erro, devemos decidir como penalizar esses erros. De fato, a abordagem mais direta para penalizar erros seria usar uma linearly proportionalfunção de penalidade. Com essa função, cada desvio da média recebe um erro proporcional correspondente. O dobro da média resultaria em duas vezes a penalidade.

A abordagem mais comum é considerar uma squared proportionalrelação entre desvios da média e a penalidade correspondente. Isso garantirá que quanto mais você estiver longe da média, mais proporcionalmente será penalizado. Usando esta função de penalidade, os valores extremos (longe da média) são considerados proporcionalmente mais informativos do que as observações próximas à média.

Para dar uma visualização disso, você pode simplesmente plotar as funções de penalidade:

Comparação das funções de penalidade MAD e MSE

Agora, especialmente ao considerar a estimativa de regressões (por exemplo, OLS), diferentes funções de penalidade produzirão resultados diferentes. Usando a linearly proportionalfunção de penalidade, a regressão atribuirá menos peso aos valores discrepantes do que ao usar a squared proportionalfunção de penalidade. O desvio médio absoluto (MAD) é, portanto, conhecido por ser um estimador mais robusto . Em geral, é, portanto, o caso de um estimador robusto que ajusta bem a maioria dos pontos de dados, mas 'ignora' os outliers. Um mínimo de quadrados, em comparação, é puxado mais para os valores extremos. Aqui está uma visualização para comparação:

Comparação de OLS vs um estimador robusto

Agora, embora o OLS seja praticamente o padrão, diferentes funções de penalidade também estão em uso. Como exemplo, você pode dar uma olhada na função de ajuste robusto do Matlab, que permite escolher uma função de penalidade diferente (também chamada de 'peso') para sua regressão. As funções de penalidade incluem andrews, bisquare, cauchy, fair, huber, logistic, ols, talwar e welsch. Suas expressões correspondentes também podem ser encontradas no site.

Espero que ajude você a obter um pouco mais de intuição para as funções de penalidade :)

Atualizar

Se você possui o Matlab, recomendo jogar com o robustdemo do Matlab , que foi construído especificamente para a comparação de mínimos quadrados comuns e regressão robusta:

robustdemo

A demonstração permite que você arraste pontos individuais e veja imediatamente o impacto nos mínimos quadrados comuns e na regressão robusta (o que é perfeito para fins de ensino!).

Jean Paul
fonte
3

Como outra resposta explicou, minimizar o erro ao quadrado não é o mesmo que minimizar o erro absoluto.

O motivo de minimizar o erro ao quadrado é preferível é porque ele evita erros maiores.

Digamos que o departamento de folha de pagamento do seu empolador acidentalmente pague cada um de um total de dez funcionários US $ 50 a menos do que o necessário. Esse é um erro absoluto de US $ 500. Também é um erro absoluto de US $ 500 se o departamento pagar apenas um funcionário US $ 500 a menos. Mas em termos de erro ao quadrado, é 25000 versus 250000.

Nem sempre é melhor usar erro ao quadrado. Se você tiver um conjunto de dados com valores extremos extremos devido a um erro de aquisição de dados, minimizar o erro ao quadrado fará com que o ajuste seja extremos muito mais do que minimizar o erro absoluto. Dito isto, geralmente é melhor usar o erro ao quadrado.

Atsby
fonte
4
O motivo de minimizar o erro ao quadrado é preferível é porque ele evita erros maiores. - então por que não em cubos?
Daniel Earwicker
O @DanielEarwicker Cubed comete erros na direção errada subtrativa. Portanto, teria que ser um erro absoluto em cubos ou manter os poderes pares. Não existe realmente uma "boa" razão pela qual o quadrado seja usado em vez de potências mais altas (ou, de fato, funções de penalidade não polinomial). É fácil calcular, minimizar e executar o trabalho.
Atsby
1
Claro que eu deveria ter dito um poder ainda maior! :)
Daniel Earwicker
Isso não tem votos positivos (no momento), mas isso não é o mesmo que dizer a resposta que (atualmente) tem 15 votos (ou seja, os discrepantes têm mais efeito)? Isso não está recebendo votos porque está errado ou porque falta algumas informações importantes? Ou porque não possui gráficos bonitos? ;-)
Darren Cook
@DarrenCook Eu suspeito que a abordagem "moderna" das estatísticas prefere o MAD ao OLS, e sugerir que o erro ao quadrado é "geralmente" melhor me valeu alguns votos negativos.
Atsby
3

Em teoria, você poderia usar qualquer tipo de função de perda. As funções de perda absoluta e de quadrado são as mais populares e as mais intuitivas. De acordo com esta entrada da Wikipedia ,

Um exemplo comum envolve estimar "localização". Sob premissas estatísticas típicas, a média ou a média é a estatística para estimar o local que minimiza a perda esperada experimentada sob a função de perda de erro ao quadrado, enquanto a mediana é o estimador que minimiza a perda esperada experimentada sob a função de perda de diferença absoluta. Estimadores ainda diferentes seriam ótimos em outras circunstâncias menos comuns.

Como também explicado na entrada da Wikipedia, a escolha das funções de perda depende de como você valoriza os desvios do seu objeto de destino. Se todos os desvios são igualmente ruins para você, independentemente do sinal deles, você pode usar a função de perda absoluta. Se os desvios pioram para você, quanto mais longe você estiver do ideal e não se importa se o desvio é positivo ou negativo, a função de perda ao quadrado é a sua escolha mais fácil. Mas se nenhuma das definições de perda acima se encaixa no seu problema, porque, por exemplo, pequenos desvios são piores para você do que grandes desvios, você pode escolher uma função de perda diferente e tentar resolver o problema de minimização. No entanto, as propriedades estatísticas da sua solução podem ser difíceis de avaliar.

Kristjan
fonte
Um pequeno detalhe: "Se todos os desvios forem igualmente ruins para você, independentemente do sinal ..": A função MAD penaliza os erros linearmente proporcionalmente. Portanto, os erros não são "igualmente ruins", mas "proporcionalmente ruins", pois o dobro do erro recebe o dobro da penalidade.
19415 Jean-Paul
@ Jean-Paul: Você está certo. Eu quis dizer dessa maneira. O que eu queria dizer com "igualmente ruim" era que o gradiente do MAD é constante enquanto o gradiente para o MSE cresce linearmente com o erro. Portanto, se a diferença entre dois erros for constante, não importa o quão longe você esteja do ideal, enquanto o mesmo não é verdadeiro para o MSE. Espero que isso torne um pouco mais compreensível o que quero dizer.
precisa saber é o seguinte
-1

Respostas curtas

  1. Não
  2. a média possui propriedades estatísticas mais interessantes que a mediana
ℕʘʘḆḽḘ
fonte
10
Seria ótimo se você pudesse qualificar "propriedades estatísticas mais interessantes".
Momo