A regressão L1 estima mediana, enquanto que as estimativas de regressão L2 significam?

24

Então me fizeram uma pergunta sobre quais medidas centrais L1 (isto é, laço) e L2 (isto é, regressão de cordilheira) estimadas. A resposta é L1 = mediana e L2 = média. Existe algum tipo de raciocínio intuitivo para isso? Ou isso precisa ser determinado algebricamente? Se sim, como faço para fazer isso?

Bstat
fonte
4
Por L1 / L2 você está se referindo à função objetivo ou às restrições? Se a função objetivo sim, o erro L1 é minimizado com a mediana condicional e L2 a média condicional. Se houver restrições (a que cordão / laço se refere), esta é a maneira errada de pensar sobre isso. Suas "medidas centrais" ainda visam uma média condicional, mas com penalidades diferentes em β .
Muratoa

Respostas:

24

Há uma explicação geométrica simples para o motivo pelo qual a função de perda L1 produz a mediana.

Lembre-se de que estamos trabalhando em uma dimensão, então imagine uma linha numérica se espalhando horizontalmente. Plote cada um dos pontos de dados na linha numérica. Coloque o dedo em algum lugar na linha; seu dedo será sua estimativa atual de candidato.

Suponha que você mova o dedo um pouco para a direita, digamos unidades para a direita. O que acontece com a perda total? Bem, se o seu dedo estava entre dois pontos de dados e você o movia através de um ponto de dados, você aumentou a perda total em δ para cada ponto de dados à esquerda do seu dedo e diminuiu em δ para cada ponto de dados para o direito do seu dedo. Portanto, se houver mais pontos de dados à direita do seu dedo do que à esquerda, movê-lo para a direita diminui a perda total. Em outras palavras, se mais da metade dos pontos de dados estiverem à direita do seu dedo, mova-o para a direita.δδδ

Isso faz com que você mova o dedo em direção a um ponto em que metade dos pontos de dados esteja naquele ponto e metade na direita. Esse ponto é a mediana.

Isso é L1 e a mediana. Infelizmente, não tenho uma explicação semelhante, "toda a intuição, sem álgebra", para L2 e a média.

DW
fonte
7
Se estamos falando de uma estimativa pontual simples, é um cálculo direto. ddβ1 1nEu=1 1n(yEu-β)2=-21 1nEu=1 1n(yEu-β)=0 0β=1 1nEuyEu
muratoa
3
@muratoa, sim, eu sei a derivação de cálculo, mas a pergunta pede especificamente uma explicação que se concentre na intuição e evite a álgebra. Eu assumiria que o questionador já conhece a derivação do cálculo, mas está procurando algo que ofereça mais intuição.
DW
Eu pensei que o OP mencionasse regressão, o que sugere que ele está falando sobre a estimativa de y dado x, que é uma média condicional usando mínimos quadrados e a mediana condicional para erro absoluto médio. As mesmas explicações devem funcionar, mas o problema é um pouco diferente. A explicação do cálculo para a média é bem clara e direta. Talvez uma explicação para a média possa ser dada de maneira semelhante aos DWs para a mediana. A média da amostra é uma estimativa imparcial para a média da população.
Michael R. Chernick
À medida que você afasta a estimativa da amostra, o erro quadrado médio é alterado devido a um aumento no viés. O erro quadrático médio realmente aumenta em d 2 quando a estimativa adiciona d à média da amostra como a estimativa candidata. 2
Michael R. Chernick
11
Existe uma versão rápida e suja da álgebra dada por muratoa para o caso L1. Observe que, exceto quando , a derivada de | y i - β | wrt β é - s g n ( y i - β ) , que é - 1 se β < y i e + 1 se β > y i . Então dβ=yEu|yEu-β|β-sgn(yEu-β)-1 1β<yEu+1 1β>yEu , excepto quando β é uma y i . A derivada desaparece quando existe o mesmo número de termos positivos e negativos entre os y i - β , que, grosso modo, surge quando β é a mediana do y i . ddβ1 1nEu|yEu-β|=-1 1nEusgn(yEu-β)βyEuyEu-ββyEu
Yves
17

Esta explicação é um resumo dos comentários de muratoa e Yves sobre a resposta da DW. Embora seja baseado em cálculo, achei simples e fácil de entender.

Supondo que temos e querer obter uma nova estimativa β com base nelas. A menor perda é obtida quando encontramos β, que torna zero a derivada da perda.y1 1,y2,...ykββ

Perda L1

L1

eu1 1=1 1kEu=1 1k|yEu-β|
sgn(yi-β)é 1 quandoyi>β, -1 quandoyi<β. A derivada é igual a 0 quando existe o mesmo número de termos positivos e negativos entreyi-β, o que significa queβdeve ser a mediana deyi.
eu1 1β=-1 1kEu=1 1ksgn(yEu-β)
sgn(yEu-β)yEu>βyEu<βyEu-ββyEu

Perda de L2

L2

eu2=1 1kEu=1 1k(yEu-β)2
L2
eu2β=-2kEu=1 1k(yEu-β)
Portanto, para minimizar a perda de L2,βdeve ser a média deyi.
eu2β=0 0β=1 1kEu=1 1kyEu

βyEu
chefwen
fonte
3

Acrescentando à resposta da DW com um exemplo ainda mais prático (também para a função de perda de L2):

Imagine uma pequena vila composta de 4 casas próximas umas das outras (por exemplo, 10 metros). A 1 km desses, você tem outra casa muito isolada. Agora, você chega nessa cidade e quer construir sua própria casa em algum lugar. Você quer morar perto das outras casas e ser amigo de todos. Considere esses dois cenários alternativos:

  1. Você decide estar no local em que a distância média a qualquer casa é a menor (isto é, minimizar a função de perda de L1).

    • Se você colocar sua casa no centro da vila, estará a 10 metros de distância de 4 casas e a 1 km de uma casa, o que lhe dá uma distância média de cerca de 200 metros (10 + 10 + 10 + 10 + 1000 / 5)
    • Se você colocar sua casa a 500 metros da vila, estará a cerca de 500 metros de 5 casas, o que lhe dá uma distância média de 500 metros.
    • Se você colocar sua casa ao lado da casa isolada, você estará a 1 km da vila (4 casas) e a cerca de 10 metros de uma casa, o que lhe dá uma distância média de cerca de 800 metros.

    Assim, a menor distância média de 100 metros é alcançada através da construção de sua casa na vila. Mais especificamente, você construirá sua casa no meio dessas 4 casas para ganhar mais alguns metros de distância média. E acontece que esse ponto é o " ponto mediano ", que você teria obtido da mesma forma usando a fórmula mediana.

  2. Você decide adotar uma abordagem democrática. Você pergunta a cada um dos seus cinco futuros vizinhos a localização preferida para a sua nova casa. Todos gostam de você e querem que você viva perto deles. Portanto, todos declaram que seu local preferido é o local ao lado de sua própria casa. Você calcula a média de todos os locais votados dos seus cinco vizinhos e o resultado é "200 metros da vila" (média dos votos: 0 + 0 + 0 + 0 + 1000/5 = 200), que é o " ponto médio " das 5 casas, que você teria obtido da mesma forma usando a fórmula média. E esse local é exatamente o mesmo que mimetiza a soma das distâncias ao quadrado (função de perda de L2). Vamos apenas fazer as contas para ver:
    • Nesse local, a soma das distâncias ao quadrado é: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • Se construirmos a casa no centro da vila, nossa soma das distâncias ao quadrado seria: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
    • Se construirmos a casa a 100 metros da vila (como em 1), a soma das distâncias ao quadrado é: 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
    • Se construirmos a casa a 100 metros da casa isolada, a soma das distâncias ao quadrado é: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

Então, sim, é interessante notar que, um pouco contra-intuitivamente, quando minimizamos a soma das distâncias, não acabamos ficando no "meio" no sentido da média, mas no sentido da mediana. Isso é parte do motivo pelo qual o OLS, um dos modelos de regressão mais populares, usa erros quadrados ao invés de erros absolutos.

Jonathan Zimmermann
fonte
1

Além das respostas já postadas (que foram muito úteis para mim!), Há uma explicação geométrica para a conexão entre a norma L2 e a média.

Para usar a mesma notação que chefwen , a fórmula para perda de L2 é:

eu2=1 1kEu=1 1k(yEu-β)2

βeu2k

Eu=1 1k(yEu-β)2

ykyβ=(β,β,...,β)

βyββ1 1=(1 1,1 1,...,1 1)y1 1

k=2y=(2,6). Como mostrado, projetando no1 1 rendimentos (4,4) como esperamos.

o vetor y projetado em beta

Mostrar que essa projeção sempre gera a média (inclusive quando k>2), podemos aplicar a fórmula para projeção :

β=proj1 1y=y1 1|1 1|21 1β=Eu=1 1kyEuk
Paulo
fonte