Como seria um exemplo de quando L2 é uma boa função de perda para calcular uma perda posterior?

9

A perda de L2, juntamente com a perda de L0 e L1, são três funções de perda "padrão" muito comuns usadas ao resumir uma posterior pela mínima perda posterior esperada. Uma razão para isso é talvez o fato de serem relativamente fáceis de calcular (pelo menos para distribuições 1d), L0 resulta no modo, L1 na mediana e L2 na média. Ao ensinar, posso criar cenários em que L0 e L1 são funções de perda razoáveis ​​(e não apenas "padrão"), mas estou enfrentando um cenário em que L2 seria uma função de perda razoável. Então, minha pergunta:

Para fins pedagógicos, qual seria um exemplo de quando L2 é uma boa função de perda para calcular uma perda posterior mínima?

Para L0, é fácil criar cenários de apostas. Digamos que você tenha calculado a posterioridade sobre o número total de gols em um próximo jogo de futebol e você fará uma aposta na qual ganha $$$ se adivinhar corretamente o número de gols e perder de outra forma. Então L0 é uma função de perda razoável.

Meu exemplo L1 é um pouco artificial. Você está encontrando uma amiga que chegará a um dos muitos aeroportos e depois viajará até você de carro; o problema é que você não sabe qual aeroporto (e não pode ligar para sua amiga porque ela está no ar). Dada a parte posterior sobre o aeroporto em que ela pode pousar, onde é um bom lugar para se posicionar de modo que a distância entre ela e você seja pequena, quando ela chegar? Aqui, o ponto que minimiza a perda esperada de L1 parece razoável, se você fizer as suposições simplificadoras de que o carro dela viajará em velocidade constante diretamente para a sua localização. Ou seja, uma espera de uma hora é duas vezes pior do que uma espera de 30 minutos.

Rasmus Bååth
fonte
Aviso: L0 não resulta no modo para problemas contínuos ....
Xi'an
Hmm, sim, eu sei que é um pouco desleixado dizer L0 -> modo.
Rasmus Bååth 17/03/2015
2
Olhando para a lei do quadrado inverso, se você tiver várias fontes de luz posicionadas para que qualquer ponto no espaço que possamos escolher obtenha luz desprezível de todas, exceto a fonte mais próxima, o uso da perda de L2 seria equivalente a querer minimizar, digamos, o número de segundos por lúmen recebido. Mas não consigo pensar por que você faria isso, em vez de maximizar lúmens por segundo.
Estatístico acidental

Respostas:

4
  1. L2 é "fácil". É o que você obtém por padrão se você usa métodos matriciais padrão, como regressão linear, SVD, etc. Até termos computadores, o L2 era o único jogo na cidade para muitos problemas, e é por isso que todo mundo usa ANOVA, testes t etc. Também é mais fácil obter uma resposta exata usando a perda de L2 com muitos métodos mais sofisticados, como processos gaussianos, do que obter uma resposta exata usando outras funções de perda.

  2. Da mesma forma, é possível obter a perda L2 exatamente usando uma aproximação de Taylor de segunda ordem, o que não é o caso da maioria das funções de perda (por exemplo, entropia cruzada). Isso facilita a otimização com métodos de segunda ordem, como o método de Newton. Muitos métodos para lidar com outras funções de perda ainda usam métodos para perda de L2 oculta pela mesma razão (por exemplo, mínimos quadrados ponderados iterativamente, aproximações de Laplace aninhadas integradas).

  3. L2 está intimamente relacionado às distribuições gaussianas, e o Teorema do Limite Central torna as distribuições gaussianas comuns. Se o seu processo de geração de dados é (condicionalmente) gaussiano, L2 é o estimador mais eficiente.

  4. A perda de L2 se decompõe bem, por causa da lei da variação total. Isso torna certos modelos gráficos com variáveis ​​latentes especialmente fáceis de ajustar.

  5. L2 penaliza previsões terríveis desproporcionalmente. Isso pode ser bom ou ruim, mas geralmente é bastante razoável. Uma espera de uma hora pode ser quatro vezes pior do que uma espera de 30 minutos, em média, se faz com que muitas pessoas falhem em seus compromissos.

David J. Harris
fonte
2
Hmm, o que eu procurava era mais como uma situação de decisão em que L2 seria uma função de perda razoável. Como o cenário semelhante aos dois exemplos na minha pergunta, mas para L2.
Rasmus Bååth 17/03/2015
11
@ RasmusBååth Não tenho certeza sobre um argumento para quadratar exatamente a perda (além de sua conexão com os processos de geração de dados gaussianos no 3º), mas o 5º é um argumento para algum tipo de função de perda acelerada. Para segunda ordem, qualquer função desse tipo corresponderá à perda de L2.
David J. Harris
@ DavidJ.Harris Na verdade, o # 5 está incorreto. O que você faria nesse caso é usar a perda de L1 abs (xy) para minimizar a frustração = tempo². Usar (xy) ² de perda de tempo, como você sugeriu, na verdade, lhe dará um resultado abaixo do ideal.
Íhor Mé
@ ÍhorMé Acho que devo estar entendendo mal você. Parece que você está dizendo que a melhor maneira de minimizar o erro ao quadrado é minimizar a perda absoluta , e não a norma L2.
David J. Harris
@ DavidJ.Harris Sim, eu estava tentando afirmar que esse é um problema de minimizar a "maldade" (= diferença de tempo) e não o tempo gasto esperando, essencialmente, mas acho que não entendi o experimento mental originalmente. Agora que estou relendo, L2 é uma maneira legítima de passar de minimizar a diferença de tempo para minimizar a "maldade". Embora, devo dizer, é melhor para um programador primeiro identificar corretamente qual "maldade" ele deseja minimizar, depois obter esse valor e, em seguida, minimizar via L1. Nesse caso, você obtém (diferença de tempo) ² primeiro e minimiza a perda de L1. Vá com L2 apenas quando souber o que está fazendo.
Íhor Mé 27/08/18