O modelo de regressão linear faz um monte de suposições que a regressão quantílica não faz e, se as suposições da regressão linear forem atendidas, minha intuição (e alguma experiência muito limitada) é que a regressão mediana daria resultados quase idênticos aos da regressão linear.
Então, quais são as vantagens da regressão linear? Certamente é mais familiar, mas fora isso?
regression
multiple-regression
quantile-regression
Peter Flom - Restabelece Monica
fonte
fonte
Respostas:
Muitas vezes, é afirmado que a minimização de resíduos mínimos quadrados é preferível à minimização de resíduos absolutos devido ao fato de ser computacionalmente mais simples . Mas, também pode ser melhor por outros motivos. Nomeadamente, se as suposições forem verdadeiras (e isso não for tão incomum), ele fornecerá uma solução que é (em média) mais precisa.
Máxima verossimilhança
A regressão de mínimos quadrados e a regressão quantílica (quando realizada minimizando os resíduos absolutos) podem ser vistas como maximização da função de probabilidade para erros distribuídos de Gaussian / Laplace e, nesse sentido, estão muito relacionadas.
Distribuição gaussiana:
com a probabilidade de log sendo maximizada ao minimizar a soma dos resíduos quadrados
Distribuição Laplace:
com a probabilidade logarítmica maximizada ao minimizar a soma dos resíduos absolutos
Nota: a distribuição de Laplace e a soma dos resíduos absolutos estão relacionadas à mediana, mas pode ser generalizada para outros quantis, atribuindo pesos diferentes aos resíduos negativos e positivos.
Distribuição de erro conhecida
Quando conhecemos a distribuição de erros (quando as suposições provavelmente são verdadeiras), faz sentido escolher a função de probabilidade associada. Minimizar essa função é mais ideal.
Portanto, quando os erros são distribuídos normalmente, a média da amostra é um estimador melhor da mediana da distribuição do que a mediana da amostra . A regressão de mínimos quadrados é um estimador mais ótimo dos quantis. É melhor do que usar a menor soma de resíduos absolutos.
Como muitos problemas lidam com erros distribuídos normais, o uso do método dos mínimos quadrados é muito popular. Para trabalhar com outro tipo de distribuição, pode-se usar o modelo linear Generalizado . E, o método dos mínimos quadrados iterativos, que pode ser usado para resolver GLMs, também funciona para a distribuição de Laplace (ou seja, para desvios absolutos ), que é equivalente a encontrar a mediana (ou na versão generalizada outros quantis).
Distribuição de erro desconhecida
Robustez
A mediana ou outros quantis têm a vantagem de serem muito robustos em relação ao tipo de distribuição. Os valores reais não importam muito e os quantis se preocupam apenas com o pedido. Portanto, não importa qual seja a distribuição, minimizar os resíduos absolutos (o que equivale a encontrar os quantis) está funcionando muito bem.
A questão se torna complexa e ampla aqui e depende de que tipo de conhecimento temos ou não sobre a função de distribuição. Por exemplo, uma distribuição pode ser distribuída aproximadamente normal, mas apenas com alguns outliers adicionais. Isso pode ser resolvido removendo os valores externos. Essa remoção dos valores extremos funciona até para estimar o parâmetro de localização da distribuição de Cauchy, onde a média truncada pode ser um estimador melhor que a mediana. Portanto, não apenas para a situação ideal em que as suposições se mantêm, mas também para algumas aplicações menos ideais (por exemplo, valores discrepantes adicionais), pode haver bons métodos robustos que ainda usam alguma forma de soma de resíduos quadrados em vez de soma de resíduos absolutos.
Imagino que a regressão com resíduos truncados possa ser computacionalmente muito mais complexa. Portanto, pode ser realmente uma regressão quantil, que é o tipo de regressão que é executada devido ao fato de ser computacionalmente mais simples (não mais simples que os mínimos quadrados comuns, mas mais simples que os mínimos quadrados truncados ).
Parcial / imparcial
Outra questão é tendenciosa contra estimadores imparciais. No exposto, descrevi a estimativa de máxima verossimilhança para a média, ou seja, a solução dos mínimos quadrados, como um estimador bom ou preferível, porque geralmente apresenta a menor variação de todos os estimadores imparciais (quando os erros são distribuídos normalmente). Porém, estimadores tendenciosos podem ser melhores (menor soma esperada do erro ao quadrado).
Isso torna a questão novamente ampla e complexa. Existem muitos estimadores diferentes e muitas situações diferentes para aplicá-los. O uso de uma função adaptada de perda quadrática de resíduos residuais geralmente funciona bem para reduzir o erro (por exemplo, todos os tipos de métodos de regularização), mas pode não ser necessário funcionar bem em todos os casos. Intuitivamente, não é estranho imaginar que, uma vez que a função da soma da perda de resíduos quadráticos geralmente funcione bem para todos os estimadores imparciais, os estimadores tendenciosos ideais são provavelmente algo próximo à soma da função da perda de resíduos quadrados.
fonte
A regressão linear (LR) se reduz à otimização de mínimos quadrados ao calcular seus coeficientes. Isso implica uma simetria nos desvios do modelo de regressão. Uma boa explicação da regressão quantílica (QR) está em https://data.library.virginia.edu/getting-started-with-quantile-regression/ .
Se as premissas de RL (necessárias para inferência: valores de p, intervalos de confiança etc.) forem satisfeitas, as previsões de QR e LR serão semelhantes. Mas se as premissas forem violadas, sua inferência padrão de LR estará errada. Portanto, uma regressão de 0,5 quantis (mediana) apresenta uma vantagem sobre a RL. Também oferece mais flexibilidade ao fornecer regressão para outros quantis. O equivalente para modelos lineares seria um limite de confiança calculado a partir de um LR (embora isso esteja errado se o iid for violado fortemente).
Então, qual é a vantagem do LR? É claro que é mais fácil calcular, mas se o seu conjunto de dados tiver um tamanho razoável, isso pode não ser muito perceptível. Mais importante, porém, as suposições de inferência de LR fornecem informações que diminuem a incerteza. Como resultado, os intervalos de confiança de LR nas previsões normalmente serão mais estreitos. Portanto, se houver um forte suporte teórico para as suposições, intervalos de confiança mais estreitos podem ser uma vantagem.
fonte
A regressão linear é usada para estimar a resposta média condicional, dados os dados, isto é,E( Y|X) Onde Y é a resposta e X são os dados. A regressão nos diz queE( Y|X) = Xβ . Existem certas suposições (você pode encontrá-las em qualquer texto de estatísticas) para que a inferência seja válida. Se estes forem satisfeitos, geralmente o estimador padrão paraβ é o AZUL (melhor estimador linear e imparcial - veja o teorema de Gauss-Markov).
A regressão quantílica pode ser usada para estimar QUALQUER quantil da distribuição condicional, incluindo a mediana. Isso fornece potencialmente muito mais informações do que a média sobre a distribuição condicional. Se a distribuição condicional não é simétrica ou as caudas são possivelmente grossas (por exemplo, análise de risco), a regressão quantílica é útil, mesmo que todas as premissas da regressão linear sejam satisfeitas.
Obviamente, é numericamente mais intensivo realizar uma estimativa quantil em relação à regressão linear, mas geralmente é muito mais robusta (por exemplo, assim como a mediana é mais robusta do que a média para os valores extremos). Além disso, é apropriado quando a regressão linear não é - por exemplo, para dados censurados. A inferência pode ser mais complicada, pois a estimativa direta da matriz de variância-covariância pode ser difícil ou computacionalmente cara. Nesses casos, pode-se inicializar.
fonte