Ao realizarmos regressão linear para encaixar um grupo de pontos de dados ( x 1 , y 1 ) , ( x 2 , Y 2 ) , . . . , ( x n , y n ) , a abordagem clássica minimiza o erro ao quadrado. Há muito tempo fico intrigado com uma pergunta que minimizará o erro ao quadrado resultará no mesmo resultado que minimizará o erro absoluto? Caso contrário, por que minimizar o erro ao quadrado é melhor? Existe algum outro motivo além de "a função objetivo é diferenciável"?
O erro quadrado também é amplamente usado para avaliar o desempenho do modelo, mas o erro absoluto é menos popular. Por que o erro ao quadrado é mais comumente usado que o erro absoluto? Se a derivada não está envolvida, calcular o erro absoluto é tão fácil quanto calcular o erro ao quadrado, então por que o erro ao quadrado é tão prevalente ? Existe alguma vantagem única que possa explicar sua prevalência?
Obrigado.
fonte
Respostas:
Minimizar erros quadrados (MSE) definitivamente não é o mesmo que minimizar desvios absolutos (MAD) de erros. MSE fornece a resposta média de condicionado em x , enquanto MAD fornece a resposta mediana de y condicionado em x .y x y x
Historicamente, Laplace originalmente considerava o erro máximo observado como uma medida da correção de um modelo. Ele logo passou a considerar MAD em seu lugar. Devido à sua incapacidade de resolver exatamente as duas situações, ele logo considerou o diferencial MSE. Ele e Gauss (aparentemente ao mesmo tempo) derivaram as equações normais, uma solução de forma fechada para esse problema. Atualmente, resolver o MAD é relativamente fácil por meio de programação linear. Como é sabido, no entanto, a programação linear não possui uma solução de forma fechada.
Do ponto de vista da otimização, ambos correspondem a funções convexas. No entanto, o MSE é diferenciável, portanto, permitindo métodos baseados em gradiente, muito eficientes do que seus colegas não diferenciáveis. MAD não é diferenciável em .x = 0
Uma outra razão teórica é que, em um cenário bayesiano, ao assumir anteriores uniformes dos parâmetros do modelo, o MSE gera erros distribuídos normais, que foram tomados como prova de correção do método. Os teóricos gostam da distribuição normal porque acreditam que é um fato empírico, enquanto os experimentais gostam disso porque acreditam que é um resultado teórico.
Uma razão final da razão pela qual MSE pode ter tido a ampla aceitação que tem é que ela se baseia na distância euclidiana (na verdade, é uma solução do problema de projeção em um espaço banach euclidiano) que é extremamente intuitiva, dada a nossa realidade geométrica.
fonte
Como explicação alternativa, considere a seguinte intuição:
Ao minimizar um erro, devemos decidir como penalizar esses erros. De fato, a abordagem mais direta para penalizar erros seria usar uma
linearly proportional
função de penalidade. Com essa função, cada desvio da média recebe um erro proporcional correspondente. O dobro da média resultaria em duas vezes a penalidade.A abordagem mais comum é considerar uma
squared proportional
relação entre desvios da média e a penalidade correspondente. Isso garantirá que quanto mais você estiver longe da média, mais proporcionalmente será penalizado. Usando esta função de penalidade, os valores extremos (longe da média) são considerados proporcionalmente mais informativos do que as observações próximas à média.Para dar uma visualização disso, você pode simplesmente plotar as funções de penalidade:
Agora, especialmente ao considerar a estimativa de regressões (por exemplo, OLS), diferentes funções de penalidade produzirão resultados diferentes. Usando a
linearly proportional
função de penalidade, a regressão atribuirá menos peso aos valores discrepantes do que ao usar asquared proportional
função de penalidade. O desvio médio absoluto (MAD) é, portanto, conhecido por ser um estimador mais robusto . Em geral, é, portanto, o caso de um estimador robusto que ajusta bem a maioria dos pontos de dados, mas 'ignora' os outliers. Um mínimo de quadrados, em comparação, é puxado mais para os valores extremos. Aqui está uma visualização para comparação:Agora, embora o OLS seja praticamente o padrão, diferentes funções de penalidade também estão em uso. Como exemplo, você pode dar uma olhada na função de ajuste robusto do Matlab, que permite escolher uma função de penalidade diferente (também chamada de 'peso') para sua regressão. As funções de penalidade incluem andrews, bisquare, cauchy, fair, huber, logistic, ols, talwar e welsch. Suas expressões correspondentes também podem ser encontradas no site.
Espero que ajude você a obter um pouco mais de intuição para as funções de penalidade :)
Atualizar
Se você possui o Matlab, recomendo jogar com o robustdemo do Matlab , que foi construído especificamente para a comparação de mínimos quadrados comuns e regressão robusta:
A demonstração permite que você arraste pontos individuais e veja imediatamente o impacto nos mínimos quadrados comuns e na regressão robusta (o que é perfeito para fins de ensino!).
fonte
Como outra resposta explicou, minimizar o erro ao quadrado não é o mesmo que minimizar o erro absoluto.
O motivo de minimizar o erro ao quadrado é preferível é porque ele evita erros maiores.
Digamos que o departamento de folha de pagamento do seu empolador acidentalmente pague cada um de um total de dez funcionários US $ 50 a menos do que o necessário. Esse é um erro absoluto de US $ 500. Também é um erro absoluto de US $ 500 se o departamento pagar apenas um funcionário US $ 500 a menos. Mas em termos de erro ao quadrado, é 25000 versus 250000.
Nem sempre é melhor usar erro ao quadrado. Se você tiver um conjunto de dados com valores extremos extremos devido a um erro de aquisição de dados, minimizar o erro ao quadrado fará com que o ajuste seja extremos muito mais do que minimizar o erro absoluto. Dito isto, geralmente é melhor usar o erro ao quadrado.
fonte
Em teoria, você poderia usar qualquer tipo de função de perda. As funções de perda absoluta e de quadrado são as mais populares e as mais intuitivas. De acordo com esta entrada da Wikipedia ,
Como também explicado na entrada da Wikipedia, a escolha das funções de perda depende de como você valoriza os desvios do seu objeto de destino. Se todos os desvios são igualmente ruins para você, independentemente do sinal deles, você pode usar a função de perda absoluta. Se os desvios pioram para você, quanto mais longe você estiver do ideal e não se importa se o desvio é positivo ou negativo, a função de perda ao quadrado é a sua escolha mais fácil. Mas se nenhuma das definições de perda acima se encaixa no seu problema, porque, por exemplo, pequenos desvios são piores para você do que grandes desvios, você pode escolher uma função de perda diferente e tentar resolver o problema de minimização. No entanto, as propriedades estatísticas da sua solução podem ser difíceis de avaliar.
fonte
Respostas curtas
fonte