Como a regressão quantílica "funciona"?

Espero obter uma explicação intuitiva e acessível da regressão quantílica.

Digamos que eu tenha um conjunto de dados simples do resultado $Y$ e preditores $X_1, X_2$ .

Se, por exemplo, eu executar uma regressão quantílica em 0,25, 0,5, 0,75 e retornar $\beta_{0,.25},\beta_{1,.25}...\beta_{2,.75}$ .

Os valores de $\beta$ são encontrados simplesmente ordenando os valores de $y$ e realizando uma regressão linear com base nos exemplos que estão no / próximo ao quantil fornecido?

Ou todas as amostras contribuem para as estimativas $\beta$ , com pesos descendentes à medida que a distância do quantil aumenta?

Ou é algo totalmente diferente? Ainda não encontrei uma explicação acessível.

quantile-regression Jeremy
fonte

Em relação a matemática que você pode encontrar essas duas respostas úteis: stats.stackexchange.com/questions/102906/... , stats.stackexchange.com/questions/88387/...

Andy

Respostas:

Eu recomendo Koenker & Hallock (2001, Journal of Economic Perspectives) e o livro de mesmo nome de Koenker .

O ponto de partida é a observação de que a mediana de um conjunto de dados minimiza a soma dos erros absolutos . Ou seja, o quantil de 50% é uma solução para um problema de otimização específico (para encontrar o valor que minimiza a soma dos erros absolutos).
A partir disso, é fácil descobrir que qualquer -quantil é a solução para um problema de minimização específico, ou seja, minimizar uma soma de erros absolutos ponderados assimetricamente , com pesos que dependem de . $\tau$ $\tau$
Por fim, para dar o passo da regressão, modelamos a solução para esse problema de minimização como uma combinação linear de variáveis preditivas; agora, o problema é encontrar não um único valor, mas um conjunto de parâmetros de regressão.

Portanto, sua intuição está correta: todas as amostras contribuem para as estimativas , com pesos assimétricos, dependendo do quantil que . $\beta$ $\tau$

S. Kolassa - Restabelecer Monica
fonte

Em relação ao seu ponto 1), isso não seria verdade apenas se Y fosse simetricamente distribuído? Se Y for inclinado como {1, 1, 2, 4, 10}, a mediana 2 certamente não minimizaria o erro absoluto. A regressão quantílica sempre assume que Y é simetricamente distribuído? Obrigado!

Ben

@ Ben: não, a simetria não é necessária. O ponto principal é que a mediana minimiza o erro absoluto esperado . Se você tiver uma distribuição discreta com os valores 1, 2, 4, 10 e probabilidades 0,4, 0,2, 0,2, 0,2, um resumo pontual de 2 realmente minimiza o erro absoluto esperado . Uma simulação é apenas algumas linhas de código R:

foo <- sample(x=c(1,2,4,10),size=1e6,prob=c(.4,.2,.2,.2),replace=TRUE); xx <- seq(1,10,by=.1); plot(xx,sapply(xx,FUN=function(yy)mean(abs(yy-foo))),type="l")

S. Kolassa - Reinstate Monica

(E sim, eu deveria ter sido mais claro na minha resposta, em vez de discutir "somas".)

S. Kolassa - Restabelece Monica

Derp. O que eu estava pensando. Isso faz sentido agora, obrigado.

Ben

A idéia básica da regressão quantílica vem do fato de o analista estar interessado na distribuição de dados, e não apenas na média dos dados. Vamos começar com a média.

A regressão média ajusta uma linha da forma de à média dos dados. Em outras palavras, . Uma abordagem geral para estimar esta linha está usando o método dos mínimos quadrados, $y=X\beta$ $E(Y|X=x)=x\beta$ . $\arg\min_\beta (y-x\beta)'(y-X\beta)$

Por outro lado, a regressão mediana procura uma linha que espera que metade dos dados esteja em lados opostos. Nesse caso, a função alvo é Onde $\arg\min_\beta |y-X\beta|$ é a primeira norma. $|.|$

Estendendo a idéia de mediana para resultados quantis em regressão quantílica. A idéia por trás disso é encontrar uma linha em que percentagem de dados esteja além disso. $\alpha$

Aqui você cometeu um pequeno erro: a regressão Q não é como encontrar um quantil de dados e ajustar uma linha a esse subconjunto (ou até as fronteiras que são mais desafiadoras).

A regressão Q procura uma linha que divide os dados em um qroup a quantil e o restante . Função de destino, dizendo função de verificação de Q-regressão é $\alpha$

{\hat{β}}_{α} = \arg min_{β} {α | y - X β | Eu (y > X β) + (1 - α) | y - X β | Eu (y < X β)} .

$\hat\beta_\alpha=\arg\min_\beta \bigg\{\alpha |y-X\beta| I(y>X\beta) + (1-\alpha) |y-X\beta|I(y<X\beta)\bigg\}.$

Como você vê, essa função inteligente de destino nada mais é do que traduzir quantil para um problema de otimização.

Além disso, como você vê, a regressão Q é definida para um determinado número ( $\beta_\alpha$ ) e, em seguida, pode ser estendida para encontrar todos os quantis. Em outras palavras, a regressão Q pode reproduzir a distribuição (condicional) da resposta.

TPArrow
fonte

Essa resposta é brilhante.

Jinhua Wang