Regressão quando os resíduos de OLS normalmente não são distribuídos

43

Existem vários tópicos neste site que discutem como determinar se os resíduos do OLS são normalmente distribuídos normalmente assintoticamente . Outra maneira de avaliar a normalidade dos resíduos com o código R é fornecida nesta excelente resposta . Esta é outra discussão sobre a diferença prática entre resíduos padronizados e observados.

Mas digamos que os resíduos definitivamente não sejam normalmente distribuídos, como neste exemplo . Aqui temos milhares de observações e claramente devemos rejeitar a suposição de resíduos normalmente distribuídos. Uma maneira de resolver o problema é empregar alguma forma de estimador robusto, conforme explicado na resposta. No entanto, não estou limitado ao OLS e, em fatos, gostaria de entender os benefícios de outras metodologias glm ou não lineares.

Qual é a maneira mais eficiente de modelar dados que violam a normalidade do OLS da suposição de resíduos? Ou pelo menos, qual deve ser o primeiro passo para desenvolver uma metodologia sólida de análise de regressão?

Robert Kubrick
fonte
5
Existem também vários tópicos discutindo como a normalidade é essencialmente irrelevante para muitos propósitos. Se você tiver observações independentes e pelo menos um tamanho de amostra moderado, a única coisa importante para a inferência do OLS é que todos os resíduos tenham a mesma variação. Não é normalidade. Se você usar estimativas robustas / consistentes de heterocedasticidade / sanduíche / Huber-Eicker-White de erro padrão, mesmo o requisito de variação constante não será necessário.
guest
@ Guest Estou lendo apenas sobre a eficiência do teste de normalidade nesse segmento. A análise de regressão nem é marcada.
Robert Kubrick
Experimente este . Aqui está um link externo . E veja os capítulos da OLS, por exemplo, Stock e Watson, Introdução à Econometria . Eu juro que não estou inventando essas coisas!
guest
@guest Os dois links lidam com a distribuição de normalidade dos resultados, não dos resíduos.
Robert Kubrick
11
Não, eles não. Os autores geralmente se referem à "distribuição de Y" como um atalho para a "distribuição de Y condicional em X". Para voltar à sua pergunta original; a menos que você tenha uma amostra minúscula ou dados maciçamente pesados, o uso do OLS com erros padrão robustos é um bom primeiro passo. Nesses casos, a normalidade é apenas um problema.
guest

Respostas:

53

A estimativa de mínimos quadrados ordinários ainda é um estimador razoável diante de erros não normais. Em particular, o Teorema de Gauss-Markov afirma que a estimativa de mínimos quadrados ordinários é o melhor estimador linear imparcial (AZUL) dos coeficientes de regressão ('Melhor' significa o ideal em termos de minimização do erro quadrático médio ) desde que os erros

(1) tem média zero

(2) não estão correlacionados

(3) tem variação constante

Observe que não há nenhuma condição de normalidade aqui (ou mesmo qualquer condição de que os erros sejam IID ).

A condição de normalidade entra em jogo quando você está tentando obter intervalos de confiança e / ou valores- . Como o @MichaelChernick menciona (+1, btw), você pode usar inferência robusta quando os erros não forem normais, desde que a saída da normalidade possa ser tratada pelo método - por exemplo, (como discutimos neste tópico), o Huber -estimator pode fornecer inferência robusta quando a distribuição de erro real é a mistura entre uma distribuição normal e uma de cauda longa (como é o seu exemplo), mas pode não ser útil para outros desvios da normalidade. Uma possibilidade interessante a que Michael alude é o bootstrapping para obter intervalos de confiança para as estimativas do OLS e ver como isso se compara à inferência baseada no Huber.pM

Edit: Costumo ouvir dizer que você pode confiar no Teorema do Limite Central para cuidar de erros não normais - isso nem sempre é verdade (não estou falando apenas de contra-exemplos em que o teorema falha). No exemplo de dados reais a que o OP se refere, temos um tamanho de amostra grande, mas podemos ver evidências de uma distribuição de erro de cauda longa - em situações em que você tem erros de cauda longa, não pode necessariamente confiar no Teorema do Limite Central para fornecer inferência aproximadamente imparcial para tamanhos de amostra finitos realistas. Por exemplo, se os erros seguirem uma distribuição com graus de liberdade (o que não é claramente maist2.01 cauda longa do que os erros observados nos dados do OP), as estimativas do coeficiente são normalmente assintoticamente distribuídas, mas leva muito mais tempo para "entrar em ação" do que para outras distribuições de cauda curta.

Abaixo, demonstro com uma simulação grosseira Rque quando , onde , a distribuição amostral de ainda é bastante longo, mesmo quando o tamanho da amostra é :yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

insira a descrição da imagem aqui

Macro
fonte
2
+1, esta é realmente uma ótima visão geral do tópico. Agradeço especialmente a edição. Existe algo de especial em ? Isso parece muito específico. df=2.01
gung - Restabelece Monica
2
@gung, Thanks - Eu escolhi pois a variação de uma variável aleatória distribuída por não existe quando e, portanto, o teorema do limite central não se aplica. df=2.01tdf2
Macro
11
@ Guest, este foi um exemplo inventado apenas para mostrar que você não pode confiar cegamente no CLT quando possui erros de cauda longa. Concordo que isso seja extremo para muitos aplicativos, mas no exemplo ( stats.stackexchange.com/questions/29636/… ) ao OP referido, os dados mostram uma distribuição de erro de cauda muito longa - a forma é um pouco diferente da , mas não é claramente menos de cauda longa e resultou de dados reais. Eu editei meu "Editar" para destacar isso. t2.01
Macro
2
@ Macro, eu concordo sobre o uso cego do CLT. Mas exigir dados normais para intervalos de confiança e valores de - e não apenas exigir dados de cauda clara - é um exagero considerável e incentiva, por exemplo, transformações inversas-normais, que apenas dificultam a interpretação da saída. O equilíbrio a ser alcançado é entre responder a pergunta certa aproximadamente versus a pergunta errada com precisão; se o caminho certo envolve a comparação de médias populacionais, o uso do OLS é o caminho certo a seguir. p
guest
2
@ Guest, eu nunca discuti contra a OLS. Na verdade, acho que grande parte da minha resposta foi que o OLS era uma coisa razoável a se fazer, independentemente de quaisquer suposições de distribuição. Também nunca argumentei que uma normalidade estrita deve ser respeitada para fazer inferência - o que estou dizendo é que, quando você tem erros de cauda longa, a inferência baseada na aproximação normal pode ser enganosa (não tenho certeza de como / se isso discorda de tudo com o que você está dizendo) e é aconselhável considerar uma alternativa (por exemplo, inicialização). .
Macro
10

Eu acho que você deseja examinar todas as propriedades dos resíduos.

  1. normalidade
  2. variação constante
  3. correlacionado a uma covariável.
  4. combinações dos itens acima

Se for apenas 1 e for devido a ajustes pesados ​​ou distorção devido a uma cauda pesada, a regressão robusta pode ser uma boa abordagem ou possivelmente uma transformação na normalidade. Se for uma variação não constante, tente uma transformação estabilizadora de variação ou tente modelar a função de variação. Se for apenas 3, isso sugere uma forma diferente de modelo envolvendo essa covariável. Qualquer que seja o problema ao inicializar os vetores ou reiduals, é sempre uma opção.

Michael Chernick
fonte
Para 1, você pode elaborar um pouco sobre a transformação em normalidade para resíduos pesados ​​de cauda?
Robert Kubrick
2
transformação de log ou Box-Cox com lambda pequeno encolher as caudas. Isso pode funcionar para alguma distribuição pesada e distorcida. Não sei se alguma transformação funcionará para distribuições de cauda muito pesada.
Michael Chernick
3
Nice responde Michael. Comecei a usar mais rotineiramente o bootstrap para intervalos de confiança envolvendo estimativas de regressão e contrastes gerais, e facilitei isso no meu rmspacote R. Mas, como você sugeriu, encontrar uma transformação que melhore a estabilidade da variância e, às vezes, melhore a normalidade dos resíduos geralmente tem várias vantagens, mesmo se formos inicializados. As estimativas de mínimos quadrados usando a transformação "errada" podem ser muito ineficientes e levar a grandes erros médios absolutos e absolutos medianos nas previsões. Também gosto de usar modelos de regressão semiparamétricos.
precisa
2

Minha experiência está completamente de acordo com Michael Chernick. Às vezes, a aplicação de uma transformação de dados não apenas faz com que o erro de modelagem seja distribuído normalmente, mas também pode corrigir a heterocedasticidade.

Desculpe, mas sugerir o contrário, como reunir uma quantidade insana de dados ou empregar métodos de regressão robustos menos eficientes, é equivocado, na minha opinião, por ter praticado essa ciência / arte.

AJKOER
fonte
1

Macro (jsut acima) declarou a resposta correta. Apenas alguma precisão, porque eu tinha a mesma pergunta

A condição de normalidade dos resíduos é útil quando os resíduos também são homosquásticos. O resultado é que o OLS tem a menor variação entre todos os estimadores (linear OU não linear).

As suposições estendidas do OLS:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n,
  3. Grandes outliers são raros
  4. você é homosquástico
  5. u é distribuídoN(0,σ2)

se 1-5 for verificado, o OLS terá a menor variação entre todos os estimadores (linear OU não linear) .

se apenas 1-4 for verificado, então por Gauss-Markov, o OLS é o melhor estimador linear (somente!) (AZUL).

Fonte: Stock and Watson, Econometrics + meu curso (EPFL, Econometrics)

firepod
fonte
Não há exigência de normalidade para mínimos quadrados comuns em resíduos y, embora a normalidade confira algumas propriedades desejáveis, por exemplo, para análise de máxima verossimilhança. Este último é frequentemente usado para o critério de informação de Akaike. No entanto, isso é desnecessariamente restritivo, raramente encontrado, e o requisito mais formal é de homoscedasticidade, não normalidade, o que é uma sorte, pois, no caso contrário, haveria pouco uso para os mínimos quadrados comuns em y.
28616 Carl Carl
@Carl: a rigor, não há requisito de qualquer tipo para o OLS, nem mesmo 1 ou 2 (peça ao Excel para fazer uma regressão e não haverá perguntas): a normalidade é uma das várias propriedades que tornam a inferência sensível, por exemplo, previsão, confiança intervalos, testes.
PatrickT
@PatrickT A capacidade de calcular algo não confere significado. Por exemplo, a regressão linear OLS sobre uma linha com erros de valor distribuídos por Cauchy aumenta os ICs da inclinação e a interceptação para admitir praticamente qualquer coisa; ela não retorna a linha ou inclinação original. Pode-se chamar isso de cálculo pirroico. y
Carl
Devemos estar dizendo a mesma coisa. Talvez o fraseado do seu primeiro comentário me confundisse.
PatrickT
1

Para condições não normais, às vezes se recorre a uma regressão robusta , especialmente usando os links para métodos .

Para apresentar o contexto de não normalidade, pode ser útil revisar as suposições para a regressão linear do OLS , que são:

  • Exogeneidade fraca . Isso significa essencialmente que as variáveis ​​preditoras, x , podem ser tratadas como valores fixos, em vez de variáveis ​​aleatórias. Isso significa, por exemplo, que as variáveis ​​preditoras são consideradas livres de erros - isto é, não estão contaminadas por erros de medição. Essa suposição é a que é violada com mais freqüência e leva a erros conforme enumerados após esta lista de suposições.
  • Linearidade. Isso significa que a média da variável resposta é uma combinação linear dos parâmetros (coeficientes de regressão) e das variáveis ​​preditoras. Observe que essa suposição é muito menos restritiva do que pode parecer à primeira vista. Como as variáveis ​​preditoras são tratadas como valores fixos (veja acima), a linearidade é realmente apenas uma restrição nos parâmetros. As próprias variáveis ​​preditivas podem ser transformadas arbitrariamente e, de fato, várias cópias da mesma variável preditora subjacente podem ser adicionadas, cada uma transformada de forma diferente.
  • Variação constante (também conhecida como homoscedasticidade). Isso significa que valores diferentes da variável de resposta têm a mesma variação em seus erros, independentemente dos valores das variáveis ​​preditoras. Na prática, essa suposição é inválida (ou seja, os erros são heterocedásticos) se a variável de resposta puder variar em uma ampla escala. Para verificar a variação heterogênea do erro, ou quando um padrão de resíduos viola as premissas do modelo de homocedasticidade (o erro é igualmente variável em torno da 'linha de melhor ajuste' para todos os pontos de x), é prudente procurar um "efeito de ventilação" entre o erro residual e os valores previstos. Isto é, haverá uma mudança sistemática nos resíduos absolutos ou quadrados quando plotados em relação às variáveis ​​preditivas. Os erros não serão distribuídos uniformemente pela linha de regressão. A heterocedasticidade resultará na média de variações distintas em torno dos pontos para obter uma variação única que representa imprecisa- mente todas as variações da linha. De fato, os resíduos aparecem agrupados e espalhados em suas plotagens previstas para valores maiores e menores para pontos ao longo da linha de regressão linear, e o erro quadrático médio para o modelo estará errado.
  • Independência de erros. Isso pressupõe que os erros das variáveis ​​de resposta não sejam correlacionados entre si. (A independência estatística real é uma condição mais forte do que a mera falta de correlação e muitas vezes não é necessária, embora possa ser explorada se for conhecida. Isso pode ser examinado com análise de cluster e correção para interação.) Alguns métodos (por exemplo, generalizados mínimos quadrados) são capazes de lidar com erros correlatos, embora normalmente exijam significativamente mais dados, a menos que algum tipo de regularização seja usado para influenciar o modelo no sentido de assumir erros não correlacionados. A regressão linear bayesiana é uma maneira geral de lidar com esse problema.
  • A relação estatística entre os termos de erro e os regressores desempenha um papel importante na determinação de se um procedimento de estimativa possui propriedades de amostragem desejáveis, como ser imparcial e consistente.

  • O arranjo ou distribuição de probabilidade das variáveis ​​preditoras x tem uma grande influência na precisão das estimativas de β. Amostragem e desenho de experimentos são subcampos estatísticos altamente desenvolvidos que fornecem orientações para a coleta de dados de maneira a obter uma estimativa precisa de β.

Como esta resposta ilustra, simulada Student's- distribuído -axis erros a partir de uma linha de ligação para linhas de regressão OLS com intervalos de confiança para o declive e que o aumento no tamanho que os graus de liberdade ( ) diminuição. Para , Student's- é uma distribuição de Cauchy e os intervalos de confiança para inclinação tornar-se .tydfdf=1t(,+)

É arbitrário invocar a distribuição de Cauchy com relação aos resíduos, no sentido de que, quando os erros de geração são distribuídos por Cauchy, os resíduos de OLS de uma linha espúria através dos dados seriam ainda menos confiáveis, ou seja, lixo dentro --- lixo fora. Nesses casos, pode-se usar a regressão de Theil-Sen . Theil-Sen é certamente mais robusto que o OLS para resíduos não-normais, por exemplo, o erro distribuído de Cauchy não degradaria os intervalos de confiança e, diferentemente do OLS, também é uma regressão bivariada, no entanto, no caso bivariado, ainda é enviesado. A regressão de Passing-Bablok pode ser mais bivariada e imparcial, mas não se aplica a inclinações de regressão negativas. É mais comumente usado para estudos de comparação de métodos. Deve-se mencionar a regressão de Demingaqui, ao contrário das regressões de Theil-Sen e Passing-Bablok, é uma solução real para o problema bivariado, mas carece da robustez dessas outras regressões. A robustez pode ser aumentada pela truncagem de dados para incluir os valores mais centrais, por exemplo, o consenso de amostra aleatória (RANSAC) é um método iterativo para estimar parâmetros de um modelo matemático a partir de um conjunto de dados observados que contém discrepâncias.

O que é então regressão bivariada? A falta de teste da natureza bivariada dos problemas é a causa mais frequente da diluição da regressão do OLS e foi bem apresentada em outras partes deste site. O conceito de viés de OLS neste contexto não é bem reconhecido, veja, por exemplo, Frost e Thompson, como apresentado por Longford et al. (2001), que remete o leitor a outros métodos, expandindo o modelo de regressão para reconhecer a variabilidade na variável , para que não ocorra viés . Em outras palavras, a regressão de casos bivariados às vezes não pode ser ignorada quando ambos - ex1 x y x y y 2 x y x y = f ( x )1xy-valores são distribuídos aleatoriamente. A necessidade de regressão bivariada pode ser testada ajustando uma linha de regressão OLS aos resíduos de uma regressão OLS dos dados. Então, se os resíduos de OLS tiverem uma inclinação diferente de zero, o problema será bivariado e a regressão dos dados de OLS terá uma magnitude de inclinação muito rasa e uma interceptação de magnitude muito grande para ser representativa da relação funcional entre e . Nesses casos, o estimador linear de menor erro de valores ainda seria da regressão OLS, e seu valor R estará no valor máximo possível, mas a linha de regressão OLS não representará a função de linha real que se relaciona o exyy2xy variáveis ​​aleatórias. Como um contra-exemplo, quando, como ocorre entre outros problemas em uma série temporal com valores equidistantes , o OLS dos dados brutos nem sempre é inadequado, pode representar a melhor linha , mas ainda está sujeito a transformação de variável, por exemplo, para dados de contagem, usaria a raiz quadrada das contagens para converter os erros do erro distribuído de Poisson em condições mais normais, e ainda deve-se verificar se há inclinação diferente de zero dos resíduos. xy=f(x)

  1. Longford, NT (2001). "Correspondência". Jornal da Sociedade Estatística Real, Série A. 164: 565. doi: 10.1111 / 1467-985x.00219
Carl
fonte