Conselhos para identificar o formato da curva usando o quantreg

10

Estou usando o pacote quantreg para criar um modelo de regressão usando o percentil 99 dos meus valores em um conjunto de dados. Com base nos conselhos de uma pergunta anterior sobre o stackoverflow que fiz, usei a seguinte estrutura de código.

mod <- rq(y ~ log(x), data=df, tau=.99)    
pDF <- data.frame(x = seq(1,10000, length=1000) ) 
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )

que mostro plotados em cima dos meus dados. Eu plotei isso usando ggplot2, com um valor alfa para os pontos. Eu acho que a cauda da minha distribuição não está sendo considerada suficientemente na minha análise. Talvez isso se deva ao fato de que existem pontos individuais que estão sendo ignorados pela medida do tipo percentil.

Um dos comentários sugeriu que

A vinheta do pacote inclui seções sobre regressão quantil não linear e também modelos com splines de suavização etc.

Com base na minha pergunta anterior, assumi uma relação logarítmica, mas não tenho certeza se isso está correto. Eu pensei que poderia extrair todos os pontos no intervalo do percentil 99 e depois examiná-los separadamente, mas não tenho certeza de como fazer isso ou se essa é uma boa abordagem. Gostaria de receber algum conselho sobre como melhorar a identificação desse relacionamento.

insira a descrição da imagem aqui

celenius
fonte
Existem algumas boas perguntas no site que já falam sobre a transformação de dados como este, consulte stats.stackexchange.com/q/1444/1036 ou stats.stackexchange.com/q/298/1036
Andy W
Você pode atualizar o gráfico para adicionar a mediana condicional? isto parece-me mais como um problema de travessia quantil do que um problema de transformação de dados ...
user603
@ user603 O que você quer dizer com mediana condicional? (Eu procurei online, mas não estou certo de como calculá-lo)
celenius
tau = 0,5 na função rq ().
user603
11
Se seu objetivo é estimar especificamente o percentil 99 condicional, eu votaria na regressão quantil não-linear (de alguma forma - não conheço bem os pacotes R), pois não parece que você conhece a verdadeira forma funcional . Ainda não estava claro para mim, da sua pergunta anterior, qual é o objetivo real, então reiteraria o comentário sobre a sua pergunta anterior do Spacedman 4 de janeiro às 17:01
David M Kaplan

Respostas:

1

Todos os modelos estão errados, mas alguns são úteis (George Box). Você está forçando uma forma logrítmica à sua curva ajustada e, honestamente, não parece tão ruim assim. O ajuste é ruim na cauda, ​​porque há menos pontos lá; os dois parâmetros que você permitiu caberão na maior parte dos dados. Em outras palavras, em uma escala de log, essa cauda não está longe o suficiente da maior parte dos seus dados para fornecer alavancagem. Não tem a ver com a natureza quantil da regressão; O OLS também desconsideraria esses pontos (especialmente na escala logarítmica).

É muito fácil permitir um pouco mais de não linearidade. Sou parcial com splines naturais, mas, novamente, todos os modelos estão errados:

library(splines)
mod <- rq(y ~ ns(log(x), df=6), data=df, tau=.99)

O quantregpacote possui alguns ganchos especiais para splines monotônicos, se isso for do seu interesse.

Shea Parkes
fonte