Então me fizeram uma pergunta sobre quais medidas centrais L1 (isto é, laço) e L2 (isto é, regressão de cordilheira) estimadas. A resposta é L1 = mediana e L2 = média. Existe algum tipo de raciocínio intuitivo para isso? Ou isso precisa ser determinado algebricamente? Se sim, como faço para fazer isso?
24
Respostas:
Há uma explicação geométrica simples para o motivo pelo qual a função de perda L1 produz a mediana.
Lembre-se de que estamos trabalhando em uma dimensão, então imagine uma linha numérica se espalhando horizontalmente. Plote cada um dos pontos de dados na linha numérica. Coloque o dedo em algum lugar na linha; seu dedo será sua estimativa atual de candidato.
Suponha que você mova o dedo um pouco para a direita, digamos unidades para a direita. O que acontece com a perda total? Bem, se o seu dedo estava entre dois pontos de dados e você o movia através de um ponto de dados, você aumentou a perda total em δ para cada ponto de dados à esquerda do seu dedo e diminuiu em δ para cada ponto de dados para o direito do seu dedo. Portanto, se houver mais pontos de dados à direita do seu dedo do que à esquerda, movê-lo para a direita diminui a perda total. Em outras palavras, se mais da metade dos pontos de dados estiverem à direita do seu dedo, mova-o para a direita.δ δ δ
Isso faz com que você mova o dedo em direção a um ponto em que metade dos pontos de dados esteja naquele ponto e metade na direita. Esse ponto é a mediana.
Isso é L1 e a mediana. Infelizmente, não tenho uma explicação semelhante, "toda a intuição, sem álgebra", para L2 e a média.
fonte
Esta explicação é um resumo dos comentários de muratoa e Yves sobre a resposta da DW. Embora seja baseado em cálculo, achei simples e fácil de entender.
Supondo que temos e querer obter uma nova estimativa β com base nelas. A menor perda é obtida quando encontramos β, que torna zero a derivada da perda.y1 1, y2, . . . yk β β
Perda L1
∂L1
Perda de L2
∂L2
fonte
Acrescentando à resposta da DW com um exemplo ainda mais prático (também para a função de perda de L2):
Imagine uma pequena vila composta de 4 casas próximas umas das outras (por exemplo, 10 metros). A 1 km desses, você tem outra casa muito isolada. Agora, você chega nessa cidade e quer construir sua própria casa em algum lugar. Você quer morar perto das outras casas e ser amigo de todos. Considere esses dois cenários alternativos:
Você decide estar no local em que a distância média a qualquer casa é a menor (isto é, minimizar a função de perda de L1).
Assim, a menor distância média de 100 metros é alcançada através da construção de sua casa na vila. Mais especificamente, você construirá sua casa no meio dessas 4 casas para ganhar mais alguns metros de distância média. E acontece que esse ponto é o " ponto mediano ", que você teria obtido da mesma forma usando a fórmula mediana.
Então, sim, é interessante notar que, um pouco contra-intuitivamente, quando minimizamos a soma das distâncias, não acabamos ficando no "meio" no sentido da média, mas no sentido da mediana. Isso é parte do motivo pelo qual o OLS, um dos modelos de regressão mais populares, usa erros quadrados ao invés de erros absolutos.
fonte
Além das respostas já postadas (que foram muito úteis para mim!), Há uma explicação geométrica para a conexão entre a norma L2 e a média.
Para usar a mesma notação que chefwen , a fórmula para perda de L2 é:
Mostrar que essa projeção sempre gera a média (inclusive quandok > 2 ), podemos aplicar a fórmula para projeção :
fonte