Estou apenas começando com um aprendizado de máquina e, até agora, tenho lidado com regressão linear sobre uma variável.
Aprendi que existe uma hipótese, que é:
Para descobrir bons valores para os parâmetros e θ 1 , queremos minimizar a diferença entre o resultado calculado e o resultado real dos nossos dados de teste. Então subtraímos
para todos os de 1 a m . Portanto, calculamos a soma dessa diferença e depois calculamos a média multiplicando a soma por 1 . Por enquanto, tudo bem. Isso resultaria em:
Mas não é isso que foi sugerido. Em vez disso, o curso sugere pegar o valor quadrado da diferença e multiplicar por . Portanto, a fórmula é:
Por que é que? Por que usamos a função quadrada aqui e por que multiplicamos por vez de1 ?
machine-learning
linear-regression
loss-function
Golo Roden
fonte
fonte
Respostas:
Por que usamos a perda quadrada
Então, por que a perda ao quadrado é melhor do que isso? Essa é uma questão profunda relacionada ao vínculo entre inferência freqüentista e bayesiana . Em resumo, o erro quadrático está relacionado ao ruído gaussiano .
Perguntas de acompanhamento:
nan
ouinf
. Para evitar isso, apenas normalize o número errado de pontos de dados.fonte
O coeficiente 1/2 é meramente por conveniência; faz com que a derivada, que é a função realmente otimizada, pareça melhor. O 1 / m é mais fundamental; sugere que estamos interessados no erro médio quadrático. Isso permite que você faça comparações justas ao alterar o tamanho da amostra e evita o estouro. Os chamados otimizadores "estocásticos" usam um subconjunto do conjunto de dados (m '<m). Ao introduzir um regularizador (um termo aditivo à função objetivo), o uso do fator 1 / m permite que você use o mesmo coeficiente para o regularizador, independentemente do tamanho da amostra.
Quanto à questão de por que o quadrado e não simplesmente a diferença: você não quer que as subestimativas sejam penalizadas da mesma forma que as superestimativas? A quadratura elimina o efeito do sinal do erro. Tomando o valor absoluto (norma L1) também, mas sua derivada é indefinida na origem, portanto, requer mais sofisticação para usar. A norma L1 tem seus usos, portanto, lembre-se disso e talvez pergunte ao professor se ele vai cobri-la.
fonte
A medida de erro na função de perda é uma 'distância estatística'; em contraste com o entendimento popular e preliminar da distância entre dois vetores no espaço euclidiano. Com a 'distância estatística', estamos tentando mapear a 'des-similaridade' entre o modelo estimado e o modelo ideal para o espaço euclidiano.
Não existe uma regra restritiva quanto à formulação dessa 'distância estatística', mas se a escolha for apropriada, uma redução progressiva nessa 'distância' durante a otimização se traduzirá em uma estimativa de modelo cada vez melhor. Consequentemente, a escolha de 'distância estatística' ou medida de erro está relacionada à distribuição de dados subjacente.
De fato, existem várias medidas de distância / erro bem definidas para diferentes classes de distribuições estatísticas. É aconselhável selecionar a medida de erro com base na distribuição dos dados em mãos. Acontece que a distribuição gaussiana é onipresente e, consequentemente, sua medida de distância associada, a norma L2 é a medida de erro mais popular. No entanto, isso não é uma regra e existem dados do mundo real para os quais uma implementação de otimização 'eficiente' * adotaria uma medida de erro diferente da norma L2.
Considere o conjunto de divergências de Bregman . A representação canônica dessa medida de divergência é a norma L2 (erro ao quadrado). Também inclui entropia relativa (divergência de Kullback-Liebler), distância euclidiana generalizada (métrica de Mahalanobis) e função de Itakura-Saito. Você pode ler mais sobre isso neste artigo sobre Divergência funcional de Bregman e estimativa bayesiana de distribuições .
Retirada: a norma L2 possui um conjunto interessante de propriedades, o que a torna uma escolha popular para a medição de erros (outras respostas aqui mencionaram algumas delas, suficientes para o escopo desta pergunta), e o erro ao quadrado será o apropriado escolha na maioria das vezes. No entanto, quando a distribuição de dados exige, existem medidas de erro alternativas para escolher, e a escolha depende em grande parte da formulação da rotina de otimização.
* A medida de erro 'apropriada' tornaria a função de perda convexa para a otimização, o que é muito útil, em oposição a outra medida de erro em que a função de perda é não convexa e, portanto, notoriamente difícil.
fonte
Além dos pontos-chave apontados por outras pessoas, o uso de erro ao quadrado enfatiza mais o erro maior (o que acontece com 1/2 quando o quadrado versus 3/2?).
Ter um algoritmo que mova os erros fracionários, que provavelmente resultaria em classificação correta ou em uma diferença muito pequena entre a estimativa e a verdade da base, se deixado sozinho próximo de zero, deixando os erros grandes como erros grandes ou erros de classificação, não é uma característica desejável. um algoritmo.
O uso de erro ao quadrado usa o erro como um peso de importância implícita para ajustar a previsão.
fonte
Na sua formulação, você tenta obter o desvio médio da sua aproximação a partir dos dados observados.
Se o valor médio da sua aproximação for próximo ou igual ao valor médio dos dados observados (algo que é desejável e geralmente acontece com muitos esquemas de aproximação), o resultado da sua formulação seria zero ou desprezível, porque erros positivos compensam os negativos erros. Isso pode levar à conclusão de que sua aproximação é maravilhosa em cada amostra observada, embora possa não ser o caso. É por isso que você usa o quadrado do erro em cada amostra e os adiciona (seu turno é positivo para cada erro).
Obviamente, essa é apenas uma solução possível, pois você poderia ter usado a norma L1 (valor absoluto do erro em cada amostra) ou muitas outras, em vez da norma L2.
fonte