Quais são as vantagens da regressão linear sobre a regressão quantílica?

15

O modelo de regressão linear faz um monte de suposições que a regressão quantílica não faz e, se as suposições da regressão linear forem atendidas, minha intuição (e alguma experiência muito limitada) é que a regressão mediana daria resultados quase idênticos aos da regressão linear.

Então, quais são as vantagens da regressão linear? Certamente é mais familiar, mas fora isso?

Peter Flom - Restabelece Monica
fonte
3
Para 'mais familiar', acrescentaria 'interpretabilidade' e 'estabilidade', mas para mim uma das vantagens da regressão linear é o que ela diz sobre a média e quão bem essa média representa a população da amostra (os resíduos são muito informativos) . A regressão linear tem um grande valor quando suas suposições são atendidas e um bom valor quando não são atendidas.
precisa saber é o seguinte
5
Eu argumentaria que uma questão importante foi discutida nesses dois threads: stats.stackexchange.com/questions/153348/… e stats.stackexchange.com/questions/146077/… - eficiência e, possivelmente, até otimização sob determinadas suposições
Christoph Hanck 9/03/19
11
Como um ponto adicional, porém menor, talvez se possa adicionar a disponibilidade de soluções explícitas e fechadas que não estão disponíveis para, por exemplo, o LAD, o que pode tornar essas técnicas menos atraentes para os profissionais.
Christoph Hanck 11/03/19
11
Uma resposta poderia ser como comparar o caso simples de estimar um único parâmetro populacional e, em seguida, mostrar que os erros ao quadrado mínimo se saem melhor com os erros gaussianos e os menores resíduos absolutos (usando suposições também) se saem melhor para diferentes tipos de erros. Mas então, essa pergunta é sobre modelos lineares mais complexos e o problema começa a ser mais complexo e amplo. A intuição do problema simples (estimando uma única média / mediana) funciona para um modelo maior, mas por quanto deve ser resolvido? E como comparar, robustez contra outliers, distribuições, computação?
Sextus Empiricus
2
No meu caso, achei a regressão quantil muito mais agradável para explicar às pessoas não técnicas quando a variável de resposta é distorcida (por exemplo, despesas do cliente) e a introdução de uma etapa de transformação / função de link obscurece toda a análise. Nesse sentido, contestaria a afirmação "a regressão mediana daria resultados quase idênticos à regressão linear " como sendo um pouco simplista demais; isso não ocorre, especialmente quando se lida com variáveis ​​de resposta potencialmente distorcidas.
usεr11852 diz Reinstate Monic 12/03/19

Respostas:

10

Muitas vezes, é afirmado que a minimização de resíduos mínimos quadrados é preferível à minimização de resíduos absolutos devido ao fato de ser computacionalmente mais simples . Mas, também pode ser melhor por outros motivos. Nomeadamente, se as suposições forem verdadeiras (e isso não for tão incomum), ele fornecerá uma solução que é (em média) mais precisa.

Máxima verossimilhança

A regressão de mínimos quadrados e a regressão quantílica (quando realizada minimizando os resíduos absolutos) podem ser vistas como maximização da função de probabilidade para erros distribuídos de Gaussian / Laplace e, nesse sentido, estão muito relacionadas.

  • Distribuição gaussiana:

    f(x)=12πσ2e(xμ)22σ2

    com a probabilidade de log sendo maximizada ao minimizar a soma dos resíduos quadrados

    logL(x)=n2log(2π)nlog(σ)12σ2i=1n(xiμ)2sum of squared residuals

  • Distribuição Laplace:

    f(x)=12be|xμ|b

    com a probabilidade logarítmica maximizada ao minimizar a soma dos resíduos absolutos

    logL(x)=nlog(2)nlog(b)1bi=1n|xiμ|sum of absolute residuals

Nota: a distribuição de Laplace e a soma dos resíduos absolutos estão relacionadas à mediana, mas pode ser generalizada para outros quantis, atribuindo pesos diferentes aos resíduos negativos e positivos.

Distribuição de erro conhecida

Quando conhecemos a distribuição de erros (quando as suposições provavelmente são verdadeiras), faz sentido escolher a função de probabilidade associada. Minimizar essa função é mais ideal.

μ

Portanto, quando os erros são distribuídos normalmente, a média da amostra é um estimador melhor da mediana da distribuição do que a mediana da amostra . A regressão de mínimos quadrados é um estimador mais ótimo dos quantis. É melhor do que usar a menor soma de resíduos absolutos.

Como muitos problemas lidam com erros distribuídos normais, o uso do método dos mínimos quadrados é muito popular. Para trabalhar com outro tipo de distribuição, pode-se usar o modelo linear Generalizado . E, o método dos mínimos quadrados iterativos, que pode ser usado para resolver GLMs, também funciona para a distribuição de Laplace (ou seja, para desvios absolutos ), que é equivalente a encontrar a mediana (ou na versão generalizada outros quantis).

Distribuição de erro desconhecida

Robustez

A mediana ou outros quantis têm a vantagem de serem muito robustos em relação ao tipo de distribuição. Os valores reais não importam muito e os quantis se preocupam apenas com o pedido. Portanto, não importa qual seja a distribuição, minimizar os resíduos absolutos (o que equivale a encontrar os quantis) está funcionando muito bem.

A questão se torna complexa e ampla aqui e depende de que tipo de conhecimento temos ou não sobre a função de distribuição. Por exemplo, uma distribuição pode ser distribuída aproximadamente normal, mas apenas com alguns outliers adicionais. Isso pode ser resolvido removendo os valores externos. Essa remoção dos valores extremos funciona até para estimar o parâmetro de localização da distribuição de Cauchy, onde a média truncada pode ser um estimador melhor que a mediana. Portanto, não apenas para a situação ideal em que as suposições se mantêm, mas também para algumas aplicações menos ideais (por exemplo, valores discrepantes adicionais), pode haver bons métodos robustos que ainda usam alguma forma de soma de resíduos quadrados em vez de soma de resíduos absolutos.

Imagino que a regressão com resíduos truncados possa ser computacionalmente muito mais complexa. Portanto, pode ser realmente uma regressão quantil, que é o tipo de regressão que é executada devido ao fato de ser computacionalmente mais simples (não mais simples que os mínimos quadrados comuns, mas mais simples que os mínimos quadrados truncados ).

Parcial / imparcial

Outra questão é tendenciosa contra estimadores imparciais. No exposto, descrevi a estimativa de máxima verossimilhança para a média, ou seja, a solução dos mínimos quadrados, como um estimador bom ou preferível, porque geralmente apresenta a menor variação de todos os estimadores imparciais (quando os erros são distribuídos normalmente). Porém, estimadores tendenciosos podem ser melhores (menor soma esperada do erro ao quadrado).

Isso torna a questão novamente ampla e complexa. Existem muitos estimadores diferentes e muitas situações diferentes para aplicá-los. O uso de uma função adaptada de perda quadrática de resíduos residuais geralmente funciona bem para reduzir o erro (por exemplo, todos os tipos de métodos de regularização), mas pode não ser necessário funcionar bem em todos os casos. Intuitivamente, não é estranho imaginar que, uma vez que a função da soma da perda de resíduos quadráticos geralmente funcione bem para todos os estimadores imparciais, os estimadores tendenciosos ideais são provavelmente algo próximo à soma da função da perda de resíduos quadrados.

Sextus Empiricus
fonte
Quando conhecemos a distribuição de erros, faz sentido escolher a função de probabilidade associada. Minimizar essa função é mais ideal. Para não dizer que isso está errado, mas provavelmente deve ser qualificado. Obviamente, isso se relaciona mais uma vez à minha pergunta (que você respondeu) sobre estimadores ideais sob diferentes funções de perda.
Richard Hardy
É o melhor caminho, pois possui a menor variação de amostra. A variação geralmente não é uma função de perda sensível porque negligencia o viés; seria esperada uma contraparte sensata erro ao quadrado (também conhecido como erro quadrático médio) que leva em consideração a variação e o viés. A regressão de mínimos quadrados é um estimador mais ótimo dos quantis. Mediana - sim, mas outras? E se sim, então por quê? De qualquer forma, a sua é uma resposta muito boa!
Richard Hardy
11
@RichardHardy esse tópico é tão amplo. De fato, o erro = variância + viés. Eu assumi que o viés da média da amostra é o mesmo que a mediana da amostra (ou mais geral: a menor soma de resíduos quadrados e a menor soma de resíduos absolutos têm o mesmo viés). Isso é verdade, considerando várias distribuições de erros (por exemplo, distribuições de erros simétricas), mas, de fato, as questões se tornam mais complexas para outros casos. (a questão principal era que os erros costumam ser distribuídos normalmente e isso torna a regressão dos mínimos quadrados favorável) #
6187 Sextus
11
O mesmo (a complexidade da questão) é verdadeiro quando não consideramos a mediana, mas sim algum outro quantil. No caso de erros distribuídos normais, acredito que o MLE fornece o melhor resultado para qualquer quantil, mas concordo que é intuição. Novamente, o problema é muito amplo (dependência do número de amostras, tipo de distribuição de erros e certeza sobre isso, etc).
Sextus Empiricus
11
Se um relógio quebrado está exatamente certo duas vezes por dia, eu não chamaria o MLE de relógio quebrado. Claro, quando você conhece bem o problema, pode introduzir algum viés de redução de variação para melhorar o erro geral. Isso não é necessariamente mudar para um tipo de regressão (quantil) diferente; você também pode colocar um pouco de geléia ou mel nos mínimos quadrados pão e manteiga. Se você deseja comparar o MLE com um relógio quebrado, é um relógio que, por acaso, permanece parado na hora em que fazemos o melhor uso.
Sextus Empiricus
2

A regressão linear (LR) se reduz à otimização de mínimos quadrados ao calcular seus coeficientes. Isso implica uma simetria nos desvios do modelo de regressão. Uma boa explicação da regressão quantílica (QR) está em https://data.library.virginia.edu/getting-started-with-quantile-regression/ .

Se as premissas de RL (necessárias para inferência: valores de p, intervalos de confiança etc.) forem satisfeitas, as previsões de QR e LR serão semelhantes. Mas se as premissas forem violadas, sua inferência padrão de LR estará errada. Portanto, uma regressão de 0,5 quantis (mediana) apresenta uma vantagem sobre a RL. Também oferece mais flexibilidade ao fornecer regressão para outros quantis. O equivalente para modelos lineares seria um limite de confiança calculado a partir de um LR (embora isso esteja errado se o iid for violado fortemente).

Então, qual é a vantagem do LR? É claro que é mais fácil calcular, mas se o seu conjunto de dados tiver um tamanho razoável, isso pode não ser muito perceptível. Mais importante, porém, as suposições de inferência de LR fornecem informações que diminuem a incerteza. Como resultado, os intervalos de confiança de LR nas previsões normalmente serão mais estreitos. Portanto, se houver um forte suporte teórico para as suposições, intervalos de confiança mais estreitos podem ser uma vantagem.

George Ostrouchov
fonte
2

A regressão linear é usada para estimar a resposta média condicional, dados os dados, isto é, E(Y|X) Onde Y é a resposta e Xsão os dados. A regressão nos diz queE(Y|X)=Xβ. Existem certas suposições (você pode encontrá-las em qualquer texto de estatísticas) para que a inferência seja válida. Se estes forem satisfeitos, geralmente o estimador padrão paraβ é o AZUL (melhor estimador linear e imparcial - veja o teorema de Gauss-Markov).

A regressão quantílica pode ser usada para estimar QUALQUER quantil da distribuição condicional, incluindo a mediana. Isso fornece potencialmente muito mais informações do que a média sobre a distribuição condicional. Se a distribuição condicional não é simétrica ou as caudas são possivelmente grossas (por exemplo, análise de risco), a regressão quantílica é útil, mesmo que todas as premissas da regressão linear sejam satisfeitas.

Obviamente, é numericamente mais intensivo realizar uma estimativa quantil em relação à regressão linear, mas geralmente é muito mais robusta (por exemplo, assim como a mediana é mais robusta do que a média para os valores extremos). Além disso, é apropriado quando a regressão linear não é - por exemplo, para dados censurados. A inferência pode ser mais complicada, pois a estimativa direta da matriz de variância-covariância pode ser difícil ou computacionalmente cara. Nesses casos, pode-se inicializar.

Kruggles
fonte