Existem vários tópicos neste site que discutem como determinar se os resíduos do OLS são normalmente distribuídos normalmente assintoticamente . Outra maneira de avaliar a normalidade dos resíduos com o código R é fornecida nesta excelente resposta . Esta é outra discussão sobre a diferença prática entre resíduos padronizados e observados.
Mas digamos que os resíduos definitivamente não sejam normalmente distribuídos, como neste exemplo . Aqui temos milhares de observações e claramente devemos rejeitar a suposição de resíduos normalmente distribuídos. Uma maneira de resolver o problema é empregar alguma forma de estimador robusto, conforme explicado na resposta. No entanto, não estou limitado ao OLS e, em fatos, gostaria de entender os benefícios de outras metodologias glm ou não lineares.
Qual é a maneira mais eficiente de modelar dados que violam a normalidade do OLS da suposição de resíduos? Ou pelo menos, qual deve ser o primeiro passo para desenvolver uma metodologia sólida de análise de regressão?
fonte
Respostas:
A estimativa de mínimos quadrados ordinários ainda é um estimador razoável diante de erros não normais. Em particular, o Teorema de Gauss-Markov afirma que a estimativa de mínimos quadrados ordinários é o melhor estimador linear imparcial (AZUL) dos coeficientes de regressão ('Melhor' significa o ideal em termos de minimização do erro quadrático médio ) desde que os erros
(1) tem média zero
(2) não estão correlacionados
(3) tem variação constante
Observe que não há nenhuma condição de normalidade aqui (ou mesmo qualquer condição de que os erros sejam IID ).
A condição de normalidade entra em jogo quando você está tentando obter intervalos de confiança e / ou valores- . Como o @MichaelChernick menciona (+1, btw), você pode usar inferência robusta quando os erros não forem normais, desde que a saída da normalidade possa ser tratada pelo método - por exemplo, (como discutimos neste tópico), o Huber -estimator pode fornecer inferência robusta quando a distribuição de erro real é a mistura entre uma distribuição normal e uma de cauda longa (como é o seu exemplo), mas pode não ser útil para outros desvios da normalidade. Uma possibilidade interessante a que Michael alude é o bootstrapping para obter intervalos de confiança para as estimativas do OLS e ver como isso se compara à inferência baseada no Huber.p M
Edit: Costumo ouvir dizer que você pode confiar no Teorema do Limite Central para cuidar de erros não normais - isso nem sempre é verdade (não estou falando apenas de contra-exemplos em que o teorema falha). No exemplo de dados reais a que o OP se refere, temos um tamanho de amostra grande, mas podemos ver evidências de uma distribuição de erro de cauda longa - em situações em que você tem erros de cauda longa, não pode necessariamente confiar no Teorema do Limite Central para fornecer inferência aproximadamente imparcial para tamanhos de amostra finitos realistas. Por exemplo, se os erros seguirem uma distribuição com graus de liberdade (o que não é claramente maist 2.01 cauda longa do que os erros observados nos dados do OP), as estimativas do coeficiente são normalmente assintoticamente distribuídas, mas leva muito mais tempo para "entrar em ação" do que para outras distribuições de cauda curta.
Abaixo, demonstro com uma simulação grosseirayi=1+2xi+εi εi∼t2.01 β^1 n=4000
R
que quando , onde , a distribuição amostral de ainda é bastante longo, mesmo quando o tamanho da amostra é :fonte
Eu acho que você deseja examinar todas as propriedades dos resíduos.
Se for apenas 1 e for devido a ajustes pesados ou distorção devido a uma cauda pesada, a regressão robusta pode ser uma boa abordagem ou possivelmente uma transformação na normalidade. Se for uma variação não constante, tente uma transformação estabilizadora de variação ou tente modelar a função de variação. Se for apenas 3, isso sugere uma forma diferente de modelo envolvendo essa covariável. Qualquer que seja o problema ao inicializar os vetores ou reiduals, é sempre uma opção.
fonte
rms
pacote R. Mas, como você sugeriu, encontrar uma transformação que melhore a estabilidade da variância e, às vezes, melhore a normalidade dos resíduos geralmente tem várias vantagens, mesmo se formos inicializados. As estimativas de mínimos quadrados usando a transformação "errada" podem ser muito ineficientes e levar a grandes erros médios absolutos e absolutos medianos nas previsões. Também gosto de usar modelos de regressão semiparamétricos.Minha experiência está completamente de acordo com Michael Chernick. Às vezes, a aplicação de uma transformação de dados não apenas faz com que o erro de modelagem seja distribuído normalmente, mas também pode corrigir a heterocedasticidade.
Desculpe, mas sugerir o contrário, como reunir uma quantidade insana de dados ou empregar métodos de regressão robustos menos eficientes, é equivocado, na minha opinião, por ter praticado essa ciência / arte.
fonte
Macro (jsut acima) declarou a resposta correta. Apenas alguma precisão, porque eu tinha a mesma pergunta
A condição de normalidade dos resíduos é útil quando os resíduos também são homosquásticos. O resultado é que o OLS tem a menor variação entre todos os estimadores (linear OU não linear).
As suposições estendidas do OLS:
se 1-5 for verificado, o OLS terá a menor variação entre todos os estimadores (linear OU não linear) .
se apenas 1-4 for verificado, então por Gauss-Markov, o OLS é o melhor estimador linear (somente!) (AZUL).
Fonte: Stock and Watson, Econometrics + meu curso (EPFL, Econometrics)
fonte
Para condições não normais, às vezes se recorre a uma regressão robusta , especialmente usando os links para métodos .
Para apresentar o contexto de não normalidade, pode ser útil revisar as suposições para a regressão linear do OLS , que são:
A relação estatística entre os termos de erro e os regressores desempenha um papel importante na determinação de se um procedimento de estimativa possui propriedades de amostragem desejáveis, como ser imparcial e consistente.
O arranjo ou distribuição de probabilidade das variáveis preditoras x tem uma grande influência na precisão das estimativas de β. Amostragem e desenho de experimentos são subcampos estatísticos altamente desenvolvidos que fornecem orientações para a coleta de dados de maneira a obter uma estimativa precisa de β.
Como esta resposta ilustra, simulada Student's- distribuído -axis erros a partir de uma linha de ligação para linhas de regressão OLS com intervalos de confiança para o declive e que o aumento no tamanho que os graus de liberdade ( ) diminuição. Para , Student's- é uma distribuição de Cauchy e os intervalos de confiança para inclinação tornar-se .t y df df=1 t (−∞,+∞)
É arbitrário invocar a distribuição de Cauchy com relação aos resíduos, no sentido de que, quando os erros de geração são distribuídos por Cauchy, os resíduos de OLS de uma linha espúria através dos dados seriam ainda menos confiáveis, ou seja, lixo dentro --- lixo fora. Nesses casos, pode-se usar a regressão de Theil-Sen . Theil-Sen é certamente mais robusto que o OLS para resíduos não-normais, por exemplo, o erro distribuído de Cauchy não degradaria os intervalos de confiança e, diferentemente do OLS, também é uma regressão bivariada, no entanto, no caso bivariado, ainda é enviesado. A regressão de Passing-Bablok pode ser mais bivariada e imparcial, mas não se aplica a inclinações de regressão negativas. É mais comumente usado para estudos de comparação de métodos. Deve-se mencionar a regressão de Demingaqui, ao contrário das regressões de Theil-Sen e Passing-Bablok, é uma solução real para o problema bivariado, mas carece da robustez dessas outras regressões. A robustez pode ser aumentada pela truncagem de dados para incluir os valores mais centrais, por exemplo, o consenso de amostra aleatória (RANSAC) é um método iterativo para estimar parâmetros de um modelo matemático a partir de um conjunto de dados observados que contém discrepâncias.
O que é então regressão bivariada? A falta de teste da natureza bivariada dos problemas é a causa mais frequente da diluição da regressão do OLS e foi bem apresentada em outras partes deste site. O conceito de viés de OLS neste contexto não é bem reconhecido, veja, por exemplo, Frost e Thompson, como apresentado por Longford et al. (2001), que remete o leitor a outros métodos, expandindo o modelo de regressão para reconhecer a variabilidade na variável , para que não ocorra viés . Em outras palavras, a regressão de casos bivariados às vezes não pode ser ignorada quando ambos - ex 1 x y x y y 2 x y x y = f ( x )1 x y -valores são distribuídos aleatoriamente. A necessidade de regressão bivariada pode ser testada ajustando uma linha de regressão OLS aos resíduos de uma regressão OLS dos dados. Então, se os resíduos de OLS tiverem uma inclinação diferente de zero, o problema será bivariado e a regressão dos dados de OLS terá uma magnitude de inclinação muito rasa e uma interceptação de magnitude muito grande para ser representativa da relação funcional entre e . Nesses casos, o estimador linear de menor erro de valores ainda seria da regressão OLS, e seu valor R estará no valor máximo possível, mas a linha de regressão OLS não representará a função de linha real que se relaciona o ex y y 2 x y variáveis aleatórias. Como um contra-exemplo, quando, como ocorre entre outros problemas em uma série temporal com valores equidistantes , o OLS dos dados brutos nem sempre é inadequado, pode representar a melhor linha , mas ainda está sujeito a transformação de variável, por exemplo, para dados de contagem, usaria a raiz quadrada das contagens para converter os erros do erro distribuído de Poisson em condições mais normais, e ainda deve-se verificar se há inclinação diferente de zero dos resíduos. x y=f(x)
fonte