Além de algumas circunstâncias únicas em que devemos absolutamente entender a relação média condicional, quais são as situações em que um pesquisador deve escolher o OLS em vez da regressão quantílica?
Não quero que a resposta seja "se não houver utilidade para entender os relacionamentos da cauda", pois poderíamos usar a regressão mediana como substituto do OLS.
least-squares
econometrics
regression-strategies
quantile-regression
semiparametric
Frank Harrell
fonte
fonte
Respostas:
Se você estiver interessado na média, use OLS; se na mediana, use quantil.
Uma grande diferença é que a média é mais afetada por valores discrepantes e outros dados extremos. Às vezes, é isso que você quer. Um exemplo é se sua variável dependente é o capital social de um bairro. A presença de uma única pessoa com muito capital social pode ser muito importante para todo o bairro.
fonte
Parece haver uma confusão na premissa da pergunta. No segundo parágrafo, diz: "poderíamos usar a regressão mediana como substituto do OLS". Observe que a regressão da mediana condicional em X é (uma forma de) regressão quantílica.
Se o erro no processo de geração de dados subjacente é normalmente distribuído (que pode ser avaliado verificando se os resíduos são normais), a média condicional é igual à mediana condicional. Além disso, qualquer quantil em que você possa se interessar (por exemplo, o percentil 95 ou 37) pode ser determinado para um determinado ponto na dimensão X com métodos OLS padrão. O principal apelo da regressão quantílica é que ela é mais robusta que o OLS. A desvantagem é que, se todas as premissas forem atendidas, será menos eficiente (ou seja, você precisará de um tamanho de amostra maior para obter o mesmo poder / suas estimativas serão menos precisas).
fonte
Tanto o OLS quanto a regressão quantílica (QR) são técnicas de estimativa para estimar o vetor de coeficiente em um modelo de regressão linear y = X β + ε (para o caso do QR, consulte Koenker (1978), p. 33, segundo parágrafo).β
Para determinadas distribuições de erro (por exemplo, aqueles com caudas pesadas), o Code estimador β Q R é mais eficiente do que o estimador OLS β S G S ; Sensibilidade que β S G S é eficiente apenas na classe de estimadores lineares. Essa é a principal motivação de Koenker (1978) que sugere o uso do QR no lugar do OLS sob uma variedade de configurações. Eu penso que para qualquer momento da distribuição condicional P Y ( Y | X ) que deve usar o um de β S G S eβ^Q R β^O L S β^O L S PY( y|X) β^O L S que é mais eficiente (por favor me corrijam se eu estiver errado).β^Q R
Agora, para responder sua pergunta diretamente, QR é "pior" do que OLS (e, portanto, β O L S deve ser preferido sobre β Q R ), quando β O L S é mais eficiente do que β Q R . Um exemplo é quando a distribuição de erros é Normal.β^O L S β^Q R β^O L S β^Q R
Referências:
fonte
Peter Flom teve uma resposta ótima e concisa, só quero expandi-la. A parte mais importante da questão é como definir "pior".
Para definir pior, precisamos ter algumas métricas e a função para calcular o quão bom ou ruim os acessórios são chamados de funções de perda.
Podemos ter definições diferentes da função de perda, e não há certo ou errado em cada definição, mas uma definição diferente satisfaz diferentes necessidades. Duas funções de perda bem conhecidas são perda ao quadrado e perda de valor absoluto.
Se usarmos a perda ao quadrado como uma medida de sucesso, a regressão quantílica será pior que a OLS. Por outro lado, se usarmos a perda de valor absoluto, a regressão quantílica será melhor.
Qual é a resposta de Peter Folm:
fonte
Para dizer o que algumas das excelentes respostas acima disseram, mas de uma maneira um pouco diferente, a regressão quantílica faz menos suposições. No lado direito do modelo, as premissas são as mesmas que no OLS, mas no lado esquerdo, a única suposição é a continuidade da distribuição deY (poucos laços). Pode-se dizer que o OLS fornece uma estimativa da mediana se a distribuição dos resíduos for simétrica (portanto, mediana = média), e sob simetria e caudas não muito pesadas (especialmente sob normalidade), o OLS é superior à regressão quantílica para estimar a mediana, devido à precisão muito melhor. Se houver apenas uma interceptação no modelo, a estimativa de regressão quantílica é exatamente a mediana da amostra, que possui eficiência de2π quando comparado com a média, sob normalidade. Dada uma boa estimativa do erro quadrático médio da raiz (DP residual), você pode usar o OLS parametricamente para estimar qualquer quantil. Mas as estimativas quantílicas do OLS são carregadas de suposições, e é por isso que geralmente usamos regressão quantílica.
Se você deseja estimar a média, não pode obtê-la através da regressão quantílica.
Se você deseja estimar a média e os quantis com premissas mínimas (mas com mais premissas que com a regressão quantil), mas com mais eficiência, use a regressão ordinal semiparamétrica. Isso também fornece probabilidades de excedência. Um estudo de caso detalhado está em minhas anotações do curso RMS, onde é mostrado em um conjunto de dados que o erro médio médio de estimativa absoluta sobre vários parâmetros (quantis e média) é alcançado por regressão ordinal. Mas, apenas para estimar a média, o OLS é melhor e, para apenas estimar quantis, a regressão quantil foi melhor.
Outra grande vantagem da regressão ordinal é que ela é, exceto para estimar a média, completamenteY -Transformação invariável.
fonte