O erro quadrático médio raiz e a probabilidade estão realmente intimamente relacionadas. Digamos que você tenha um conjunto de dados de pares e deseje modelar o relacionamento deles usando o modelo f . Você decide minimizar o erro quadrático{ xEu, zEu}f
∑Eu( f( xEu) - zEu)2
Essa escolha não é totalmente arbitrária? Claro, você deseja penalizar estimativas que estão completamente erradas mais do que aquelas que estão quase certas. Mas há uma boa razão para usar o erro ao quadrado.
Lembre-se da densidade gaussiana: ondeZé a constante de normalização com a qual não nos importamos no momento. Vamos supor que seus dados de destinozsejam distribuídos de acordo com um gaussiano. Para que possamos anotar a probabilidade dos dados.1Zexp- ( x - μ )22 σ2Zz
L = ∏Eu1Zexp- ( f( xEu) - zEu)22 σ2
Agora, se você pegar o logaritmo disso ...
registroL = ∑Eu- ( f( xEu) - zEu)22 σ2- logZ
... acontece que está intimamente relacionado às rms: as únicas diferenças são alguns termos constantes, uma raiz quadrada e uma multiplicação.
Resumindo a história: Minimizar o erro médio quadrático raiz é equivalente a maximizar a probabilidade de log dos dados.