Quando a regressão quantil é pior que o OLS?

22

Além de algumas circunstâncias únicas em que devemos absolutamente entender a relação média condicional, quais são as situações em que um pesquisador deve escolher o OLS em vez da regressão quantílica?

Não quero que a resposta seja "se não houver utilidade para entender os relacionamentos da cauda", pois poderíamos usar a regressão mediana como substituto do OLS.

Frank Harrell
fonte
4
Eu acho que a maioria dos pesquisadores entraria no OLS e na regressão quantílica; as diferenças entre os métodos iluminariam o que você está tentando modelar. Com relação ao OLS, se você seguir as premissas de normalidade, obterá uma metodologia de teste bastante bem documentada e completa, disponível na maioria dos pacotes estatísticos.
Jonathan Lisic

Respostas:

18

Se você estiver interessado na média, use OLS; se na mediana, use quantil.

Uma grande diferença é que a média é mais afetada por valores discrepantes e outros dados extremos. Às vezes, é isso que você quer. Um exemplo é se sua variável dependente é o capital social de um bairro. A presença de uma única pessoa com muito capital social pode ser muito importante para todo o bairro.

Peter Flom - Restabelece Monica
fonte
6
Deixe-me desafiar sua primeira frase. OLS e regressão quantílica (QR) estão estimando para um processo de geração de dados y = X β + ε . Se a distribuição de erro tem caudas pesadas, β Q R é mais eficiente do que β S G S . Independentemente de qual momento da distribuição condicional P ( Y | X ) que está interessado, que deve usar o um de β S G S e β Q Rβy=Xβ+εβ^QRβ^OeuSP(y|X)β^OeuSβ^QRisso é mais eficiente.
Richard Hardy
Seguindo a crítica de @RichardHardy a essa resposta, a mediana é apenas um dos quantis estimados. Este artigo de Hyndman apresenta uma abordagem que ele chama de aumento da regressão quantílica aditiva, que explora uma gama completa de quantis, previsão de incerteza em dados de medidores inteligentes de eletricidade, aumentando a regressão quantílica aditiva ( ieeexplore.ieee.org/document/7423794 ).
Mike Hunter
15

Parece haver uma confusão na premissa da pergunta. No segundo parágrafo, diz: "poderíamos usar a regressão mediana como substituto do OLS". Observe que a regressão da mediana condicional em X é (uma forma de) regressão quantílica.

Se o erro no processo de geração de dados subjacente é normalmente distribuído (que pode ser avaliado verificando se os resíduos são normais), a média condicional é igual à mediana condicional. Além disso, qualquer quantil em que você possa se interessar (por exemplo, o percentil 95 ou 37) pode ser determinado para um determinado ponto na dimensão X com métodos OLS padrão. O principal apelo da regressão quantílica é que ela é mais robusta que o OLS. A desvantagem é que, se todas as premissas forem atendidas, será menos eficiente (ou seja, você precisará de um tamanho de amostra maior para obter o mesmo poder / suas estimativas serão menos precisas).

- Reinstate Monica
fonte
12

Tanto o OLS quanto a regressão quantílica (QR) são técnicas de estimativa para estimar o vetor de coeficiente em um modelo de regressão linear y = X β + ε (para o caso do QR, consulte Koenker (1978), p. 33, segundo parágrafo).β

y=Xβ+ε

Para determinadas distribuições de erro (por exemplo, aqueles com caudas pesadas), o Code estimador β Q R é mais eficiente do que o estimador OLS β S G S ; Sensibilidade que β S G S é eficiente apenas na classe de estimadores lineares. Essa é a principal motivação de Koenker (1978) que sugere o uso do QR no lugar do OLS sob uma variedade de configurações. Eu penso que para qualquer momento da distribuição condicional P Y ( Y | X ) que deve usar o um de β S G S eβ^QRβ^OeuSβ^OeuSPY(y|X)β^OeuSque é mais eficiente (por favor me corrijam se eu estiver errado).β^QR

Agora, para responder sua pergunta diretamente, QR é "pior" do que OLS (e, portanto, β O L S deve ser preferido sobre β Q R ), quando β O L S é mais eficiente do que β Q R . Um exemplo é quando a distribuição de erros é Normal.β^OeuSβ^QRβ^OeuSβ^QR

Referências:

  • Koenker, Roger e Gilbert Bassett Jr. "Quantis de regressão". Econometria: Jornal da Sociedade Econométrica (1978): 33-50.
Richard Hardy
fonte
3

Peter Flom teve uma resposta ótima e concisa, só quero expandi-la. A parte mais importante da questão é como definir "pior".

Para definir pior, precisamos ter algumas métricas e a função para calcular o quão bom ou ruim os acessórios são chamados de funções de perda.

Podemos ter definições diferentes da função de perda, e não há certo ou errado em cada definição, mas uma definição diferente satisfaz diferentes necessidades. Duas funções de perda bem conhecidas são perda ao quadrado e perda de valor absoluto.

eusq(y,y^)=Eu(yEu-y^Eu)2
euumabs(y,y^)=Eu|yEu-y^Eu|

Se usarmos a perda ao quadrado como uma medida de sucesso, a regressão quantílica será pior que a OLS. Por outro lado, se usarmos a perda de valor absoluto, a regressão quantílica será melhor.

Qual é a resposta de Peter Folm:

Se você estiver interessado na média, use OLS; se na mediana, use quantil.

Haitao Du
fonte
Acho que seu exemplo pode ser enganador, pois trata do ajuste dentro da amostra (o que é de pouco interesse, pois já conhecemos nossa amostra perfeitamente), em vez da perda esperada para novas observações (quando o objetivo é previsão) ou perda de estimativa do vetor de parâmetros ( quando o objetivo é explicação). Veja o comentário na resposta de Peter Flom e minha resposta para mais detalhes.
Richard Hardy
3

Para dizer o que algumas das excelentes respostas acima disseram, mas de uma maneira um pouco diferente, a regressão quantílica faz menos suposições. No lado direito do modelo, as premissas são as mesmas que no OLS, mas no lado esquerdo, a única suposição é a continuidade da distribuição deY(poucos laços). Pode-se dizer que o OLS fornece uma estimativa da mediana se a distribuição dos resíduos for simétrica (portanto, mediana = média), e sob simetria e caudas não muito pesadas (especialmente sob normalidade), o OLS é superior à regressão quantílica para estimar a mediana, devido à precisão muito melhor. Se houver apenas uma interceptação no modelo, a estimativa de regressão quantílica é exatamente a mediana da amostra, que possui eficiência de2πquando comparado com a média, sob normalidade. Dada uma boa estimativa do erro quadrático médio da raiz (DP residual), você pode usar o OLS parametricamente para estimar qualquer quantil. Mas as estimativas quantílicas do OLS são carregadas de suposições, e é por isso que geralmente usamos regressão quantílica.

Se você deseja estimar a média, não pode obtê-la através da regressão quantílica.

Se você deseja estimar a média e os quantis com premissas mínimas (mas com mais premissas que com a regressão quantil), mas com mais eficiência, use a regressão ordinal semiparamétrica. Isso também fornece probabilidades de excedência. Um estudo de caso detalhado está em minhas anotações do curso RMS, onde é mostrado em um conjunto de dados que o erro médio médio de estimativa absoluta sobre vários parâmetros (quantis e média) é alcançado por regressão ordinal. Mas, apenas para estimar a média, o OLS é melhor e, para apenas estimar quantis, a regressão quantil foi melhor.

Outra grande vantagem da regressão ordinal é que ela é, exceto para estimar a média, completamente Y-Transformação invariável.

Frank Harrell
fonte