Estou usando o pacote quantreg para criar um modelo de regressão usando o percentil 99 dos meus valores em um conjunto de dados. Com base nos conselhos de uma pergunta anterior sobre o stackoverflow que fiz, usei a seguinte estrutura de código.
mod <- rq(y ~ log(x), data=df, tau=.99)
pDF <- data.frame(x = seq(1,10000, length=1000) )
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )
que mostro plotados em cima dos meus dados. Eu plotei isso usando ggplot2, com um valor alfa para os pontos. Eu acho que a cauda da minha distribuição não está sendo considerada suficientemente na minha análise. Talvez isso se deva ao fato de que existem pontos individuais que estão sendo ignorados pela medida do tipo percentil.
Um dos comentários sugeriu que
A vinheta do pacote inclui seções sobre regressão quantil não linear e também modelos com splines de suavização etc.
Com base na minha pergunta anterior, assumi uma relação logarítmica, mas não tenho certeza se isso está correto. Eu pensei que poderia extrair todos os pontos no intervalo do percentil 99 e depois examiná-los separadamente, mas não tenho certeza de como fazer isso ou se essa é uma boa abordagem. Gostaria de receber algum conselho sobre como melhorar a identificação desse relacionamento.
fonte
Respostas:
Todos os modelos estão errados, mas alguns são úteis (George Box). Você está forçando uma forma logrítmica à sua curva ajustada e, honestamente, não parece tão ruim assim. O ajuste é ruim na cauda, porque há menos pontos lá; os dois parâmetros que você permitiu caberão na maior parte dos dados. Em outras palavras, em uma escala de log, essa cauda não está longe o suficiente da maior parte dos seus dados para fornecer alavancagem. Não tem a ver com a natureza quantil da regressão; O OLS também desconsideraria esses pontos (especialmente na escala logarítmica).
É muito fácil permitir um pouco mais de não linearidade. Sou parcial com splines naturais, mas, novamente, todos os modelos estão errados:
O
quantreg
pacote possui alguns ganchos especiais para splines monotônicos, se isso for do seu interesse.fonte