Regressão quantílica: função de perda

24

Estou tentando entender a regressão quantílica, mas uma coisa que me faz sofrer é a escolha da função de perda.

ρτ(u)=u(τ1{u<0})

Eu sei que o mínimo da expectativa de é igual ao -quantile, mas qual é o motivo intuitivo para começar com essa função? Não vejo a relação entre minimizar essa função e o quantil. Alguém pode me explicar?ρτ(yu)τ%

CDO
fonte

Respostas:

28

Entendo essa pergunta como pedindo uma compreensão de como alguém poderia criar qualquer função de perda que produza um determinado quantil como minimizador de perda, independentemente da distribuição subjacente. Seria insatisfatório, então, apenas repetir a análise na Wikipedia ou em outro lugar que mostre que essa função de perda específica funciona.

Vamos começar com algo familiar e simples.

O que você está falando é encontrar um "local" em relação a uma distribuição ou conjunto de dados . É sabido, por exemplo, que a média minimiza o resíduo quadrado esperado; isto é, é um valor pelo qualxFx¯

LF(x¯)=R(xx¯)2dF(x)

é o menor possível. Eu usei essa notação para nos lembrar que é derivado de uma perda , que é determinado por , mas o mais importante é que depende do número .LFx¯

A maneira padrão de mostrar que minimiza qualquer função começa demonstrando que o valor da função não diminui quando é alterado um pouco. Esse valor é chamado de ponto crítico da função.xx

Que tipo de função de perda resultaria em um percentil sendo um ponto crítico? A perda para esse valor seriaΛF1(α)

LF(F1(α))=RΛ(xF1(α))dF(x)=01Λ(F1(u)F1(α))du.

Para que este seja um ponto crítico, sua derivada deve ser zero. Desde que nós estamos apenas tentando encontrar alguma solução, não vamos fazer uma pausa para ver se as manipulações são legítimas: vamos planejar para verificar detalhes técnicos (como se realmente pode diferenciar Λ , etc. ) no final. portanto

(1)0=LF(x)=LF(F1(α))=01Λ(F1(u)F1(α))du=0αΛ(F1(u)F1(α))duα1Λ(F1(u)F1(α))du.

No lado esquerdo, o argumento de é negativo, enquanto no lado direito é positivo. Fora isso, temos pouco controle sobre os valores dessas integrais porque F pode ser qualquer função de distribuição. Consequentemente a nossa única esperança é fazer Λ ' depende apenas do sinal da sua argumentação, e caso contrário, deve ser constante.ΛFΛ

Isto implica será linear por partes, potencialmente com diferentes inclinações para a esquerda e à direita do zero. Claramente, deve estar diminuindo à medida que se aproxima do zero - afinal, é uma perda e não um ganho . Além disso, o redimensionamento de Λ por uma constante não altera suas propriedades, portanto, podemos ficar à vontade para definir a inclinação da mão esquerda para - 1 . Seja τ > 0 a inclinação da mão direita. Então ( 1 ) simplifica paraΛΛ1τ>0(1)

0=ατ(1α),

de onde a solução única é, até um múltiplo positivo,

Λ(x)={x, x0α1αx, x0.

Multiplicar esta solução (natural) por , para limpar o denominador, produz a função de perda apresentada na pergunta.1α

Claramente todas as nossas manipulações são matematicamente legítimas quando tem essa forma. Λ

whuber
fonte
19

A maneira como essa função de perda é expressa é agradável e compacta, mas acho que é mais fácil entendê-la reescrevendo-a como

ρτ(X-m)=(X-m)(τ-1(X-m<0 0))={τ|X-m|EufX-m0 0(1-τ)|X-m|EufX-m<0 0)

Se você quiser ter uma idéia intuitiva do porquê de minimizar essa função de perda render o τ quantil, é útil considerar um exemplo simples. Seja X uma variável aleatória uniforme entre 0 e 1. Vamos também escolher um valor concreto para τ , digamos, 0,25 .

Então agora a questão é por que essa função de perda seria minimizada em m=0,25 ? Obviamente, há três vezes mais massa na distribuição uniforme à direita de m do que à esquerda. E a função de perda pesa os valores maiores que esse número em apenas um terço do peso atribuído a valores menores que ele. Portanto, é intuitivo que as escalas sejam balanceadas quando o τ th é usado como ponto de inflexão para a função de perda.

jjet
fonte
1
Não deveria ser o contrário? Sub-adivinhar vai custar três vezes mais?
Edi Bice
Obrigado por capturar isso. A fórmula está certa, mas inicialmente a escrevi incorretamente na minha explicação.
jjet