Qual é uma lista completa das suposições usuais para regressão linear?

72

Quais são as suposições usuais para a regressão linear?

Eles incluem:

  1. uma relação linear entre a variável independente e dependente
  2. erros independentes
  3. distribuição normal de erros
  4. homoscedasticidade

Existem outros?

Tony
fonte
3
Você pode encontrar uma lista bastante completa no livrinho de William Berry sobre "Entendendo as premissas de regressão": books.google.com/books/about/…
3
Embora os entrevistados tenham listado alguns bons recursos, é uma pergunta difícil de responder nesse formato, e (muitos) livros foram dedicados apenas a este tópico. Não existe livro de receitas nem deve ser dada a variedade potencial de situações que a regressão linear poderia abranger.
Andy W
3
Tecnicamente, a regressão linear (comum) é um modelo no formato , iid. Essa declaração matemática simples abrange todas as suposições. Isso me leva a pensar, @ Andy W, que você pode interpretar a questão de maneira mais ampla, talvez no sentido da arte e prática da regressão. Seus pensamentos adicionais sobre isso podem ser úteis aqui. Y iE[Yi]=XiβYi
whuber
2
@ Andy WI não estava tentando sugerir que sua interpretação estava incorreta. Seu comentário sugeriu uma maneira de pensar sobre a questão que vai além das suposições técnicas, talvez apontando para o que pode ser necessário para uma interpretação válida dos resultados da regressão. Não seria necessário escrever um tratado em resposta, mas mesmo uma lista de algumas dessas questões mais amplas poderia ser esclarecedora e expandir o escopo e o interesse desse segmento.
whuber
11
@whuber, se , isto significa que os meios são diferentes para diferentes , daí não pode ser iid :)i Y iEYi=XiβiYi
mpiktas

Respostas:

78

A resposta depende muito de como você define completo e usual. Suponha que escrevamos o modelo de regressão linear da seguinte maneira:

yi=xiβ+ui

onde é o vetor de variáveis ​​preditoras, é o parâmetro de interesse, é a variável de resposta e é a perturbação. Uma das estimativas possíveis de é a estimativa de mínimos quadrados: xiβyiuiβ

β^=argminβ(yixiβ)2=(xixi)1xiyi.

Agora, praticamente todos os livros didáticos lidam com as suposições quando essa estimativa tem propriedades desejáveis, como imparcialidade, consistência, eficiência, algumas propriedades distributivas, etc.β^

Cada uma dessas propriedades requer certas suposições, que não são as mesmas. Portanto, a melhor pergunta seria perguntar quais premissas são necessárias para as propriedades desejadas da estimativa de LS.

As propriedades que mencionei acima requerem algum modelo de probabilidade para regressão. E aqui temos a situação em que diferentes modelos são usados ​​em diferentes campos aplicados.

O caso simples é tratar como uma variável aleatória independente, com sendo não aleatório. Não gosto da palavra habitual, mas podemos dizer que esse é o caso usual na maioria dos campos aplicados (tanto quanto eu sei).yixi

Aqui está a lista de algumas das propriedades desejáveis ​​das estimativas estatísticas:

  1. A estimativa existe.
  2. Imparcialidade: .Eβ^=β
  3. Consistência: como ( aqui é o tamanho de uma amostra de dados).β^βnn
  4. Eficiência: é menor que para estimativas alternativas of .Var(β^)Var(β~)β~β
  5. A capacidade de aproximar ou calcular a função de distribuição de .β^

Existência

A propriedade de existência pode parecer estranha, mas é muito importante. Na definição de , invertemos a matriz β^xixi.

Não é garantido que o inverso dessa matriz exista para todas as variantes possíveis de . Então, imediatamente obtemos nossa primeira suposição:xi

Matriz deve ser de classificação completa, ou seja, invertível.xixi

Imparcialidade

Temos se

Eβ^=(xixi)1(xiEyi)=β,
Eyi=xiβ.

Podemos enumerar a segunda suposição, mas podemos tê-la declarado completamente, já que essa é uma das maneiras naturais de definir relacionamento linear.

Observe que, para obter imparcialidade, exigimos apenas que para todos os e sejam constantes. Propriedade de independência não é necessária.Eyi=xiβixi

Consistência

Para obter as premissas de consistência, precisamos declarar com mais clareza o que queremos dizer com . Para sequências de variáveis aleatórias que têm diferentes modos de convergência: em probabilidade, quase certamente, na distribuição e sentido -ésimo momento. Suponha que queremos obter a convergência em probabilidade. Podemos usar a lei dos grandes números ou usar diretamente a desigualdade multivariada de Chebyshev (empregando o fato de que ):pEβ^=β

Pr(β^β>ε)Tr(Var(β^))ε2.

(Essa variante da desigualdade vem diretamente da aplicação da desigualdade de Markov em , observando que .)β^β2Eβ^β2=TrVar(β^)

Como convergência em probabilidade significa que o termo da esquerda deve desaparecer para qualquer como , precisamos que como . Isso é perfeitamente razoável, pois com mais dados, a precisão com a qual estimamos deve aumentar.ε>0nVar(β^)0nβ

Temos que

Var(β^)=(xixi)1(ijxixjCov(yi,yj))(xixi)1.

A independência garante que , portanto, a expressão simplifica para Cov(yi,yj)=0

Var(β^)=(xixi)1(ixixiVar(yi))(xixi)1.

Agora assuma e Var(yi)=const

Var(β^)=(xixi)1Var(yi).

Agora, se exigirmos adicionalmente que seja delimitado para cada , obteremos imediatamente 1nxixin

Var(β)0 as n.

Portanto, para obter a consistência, assumimos que não há autocorrelação ( ), a variação é constante e o não cresce muito. A primeira suposição é satisfeita se vier de amostras independentes.Cov(yi,yj)=0Var(yi)xiyi

Eficiência

O resultado clássico é o teorema de Gauss-Markov . As condições para isso são exatamente as duas primeiras condições de consistência e a condição de imparcialidade.

Propriedades distributivas

Se for normal, obtemos imediatamente que é normal, pois é uma combinação linear de variáveis ​​aleatórias normais. Se assumirmos premissas anteriores de independência, falta de correlação e variação constante, obtemos que onde .yiβ^

β^N(β,σ2(xixi)1)
Var(yi)=σ2

Se não é normal, mas independente, podemos obter uma distribuição aproximada de graças ao teorema do limite central. Para isso, precisamos assumir que para alguma matriz . A variação constante da normalidade assintótica não é necessária se assumirmos que yiβ^

limn1nxixiA
A
limn1nxixiVar(yi)B.

Note-se que com variância constante de , temos que . O teorema do limite central nos fornece o seguinte resultado:yB=σ2A

n(β^β)N(0,A1BA1).

Portanto, vemos que a independência e a variação constante de e certas suposições para nos oferecem muitas propriedades úteis para a estimativa de LS .yixiβ^

O fato é que essas suposições podem ser relaxadas. Por exemplo, solicitamos que não sejam variáveis ​​aleatórias. Essa suposição não é viável em aplicações econométricas. Se formos aleatórios, podemos obter resultados semelhantes se usarmos expectativas condicionais e levarmos em consideração a aleatoriedade de . A suposição de independência também pode ser relaxada. Já demonstramos que, às vezes, apenas a falta de correlação é necessária. Mesmo isso pode ser mais relaxado e ainda é possível mostrar que a estimativa do LS será consistente e assintoticamente normal. Veja, por exemplo, o livro de White para mais detalhes.xixixi

mpiktas
fonte
Um comentário sobre o teorema de Gauss-Markov. Ele afirma apenas que o OLS é melhor do que outros estimadores que são funções lineares dos dados. No entanto, muitos estimadores comumente usados, em particular a máxima verossimilhança (ML), não são funções lineares dos dados e podem ser muito mais eficientes que o OLS nas condições do teorema de Gauss-Markov.
Peter Westfall
@ PeterWestfall Para erros normais gaussianos, o MLE é o OLS :) E você não pode ser mais eficiente que o MLE. Tentei ser leve com detalhes matemáticos neste post.
mpiktas
11
Meu argumento foi que existem muitos estimadores mais eficientes do que o OLS em distribuições não normais quando as condições da GM se mantêm. A GM é essencialmente inútil como afirmação de que o OLS é "bom" sob não normalidade, porque os melhores estimadores em casos não normais são funções não lineares dos dados.
22818 Peter Westfall
@mpiktas Então, tomamos como não aleatório e usamos o estimador ou pegamos como aleatório e usamos o estimador ? xY^xY|x^
Parthiban Rajendran
16

Há várias boas respostas aqui. Ocorre-me que há uma suposição que não foi afirmada no entanto (pelo menos não explicitamente). Especificamente, um modelo de regressão assume que (os valores de suas variáveis ​​explicativas / preditivas) é fixo e conhecido , e que toda a incerteza na situação existe na variávelAlém disso, essa incerteza é assumida como sendo apenas um erro de amostragem . XY

Aqui estão duas maneiras de pensar sobre isso: Se você está construindo um modelo explicativo (modelagem de resultados experimentais), você sabe exatamente o que os níveis das variáveis independentes são, porque você manipulado / administrada eles. Além disso, você decidiu quais seriam esses níveis antes de começar a coletar dados. Então você está conceituando toda a incerteza no relacionamento como existente na resposta. Por outro lado, se você estiver construindo um modelo preditivo, é verdade que a situação difere, mas você ainda trata os preditores como se eles fossem fixos e conhecidos, porque, no futuro, quando você usar o modelo para fazer uma previsão sobre o valor provável de , você terá um vetor,yx, e o modelo foi projetado para tratar esses valores como se estivessem corretos. Ou seja, você conceberá a incerteza como sendo o valor desconhecido de . y

Essas suposições podem ser vistas na equação de um modelo de regressão prototípico: Um modelo com incerteza (talvez devido a erro de medição) em também pode ter o mesmo processo de geração de dados, mas o modelo estimada teria a seguinte aparência: que representa erro de medição aleatório. (Situações como essa levaram a erros nos modelos de variáveis ; um resultado básico é que, se houver erro de medição em , o ingênuo

yi=β0+β1xi+εi
x
yi=β^0+β^1(xi+ηi)+ε^i,
ηxβ^1seria atenuado - mais próximo de 0 do que seu valor real e que, se houver erro de medição em , os testes estatísticos dos 's seriam insuficientes, mas de outra forma imparciais). yβ^

Uma conseqüência prática da assimetria intrínseca na suposição típica é que a regressão de em é diferente da regressão de em . (Veja minha resposta aqui: qual é a diferença entre fazer regressão linear em y com x versus x com y? Para uma discussão mais detalhada desse fato.)yxxy

- Reinstate Monica
fonte
O que significa "fixo" | "aleatório" em linguagem simples? E como distinguir entre efeitos fixos e efeitos aleatórios (= fatores)? Eu acho que no meu design existe um fator conhecido fixo com 5 níveis. Direito?
10243 stan
11
@stan, reconheço sua confusão. A terminologia nas estatísticas é muitas vezes confusa e inútil. Nesse caso, "fixo" não é exatamente o mesmo que o fixo em 'efeitos fixos e efeitos aleatórios' (embora estejam relacionados). Aqui, não estamos falando sobre efeitos - estamos falando sobre os dados , ou seja, suas variáveis ​​preditivas / explicativas. A maneira mais fácil de entender a idéia de que seus dados estão sendo corrigidos é pensar em um experimento planejado. Antes de fazer qualquer coisa, ao projetar o experimento, você decide quais serão os níveis do seu explicativo e não os descobre ao longo do caminho. XX
gung - Restabelece Monica
Com modelagem preditiva, isso não é bem verdade, mas trataremos nossos dados dessa maneira no futuro, quando usarmos o modelo para fazer previsões. X
gung - Restabelece Monica
Por que os βs e o ε têm um chapéu na equação inferior, mas não na superior?
user1205901
2
@ user1205901, o modelo superior é do processo de geração de dados; a parte inferior é sua estimativa.
gung - Restabelece Monica
8

As suposições do modelo clássico de regressão linear incluem:

  1. Parâmetro linear e especificação correta do modelo
  2. Classificação completa da matriz X
  3. As variáveis ​​explicativas devem ser exógenas
  4. Termos de erro independentes e identicamente distribuídos
  5. Termos normais de erro distribuído na população

Embora as respostas aqui já ofereçam uma boa visão geral da suposição OLS clássica, você pode encontrar uma descrição mais abrangente da suposição do modelo de regressão linear clássica aqui:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

Além disso, o artigo descreve as consequências caso alguém viole certas suposições.

Tristian Onari
fonte
6

Suposições diferentes podem ser usadas para justificar o OLS

  • Em algumas situações, um autor testa os resíduos quanto à normalidade.
    • Mas em outras situações, os resíduos não são normais e o autor usa o OLS de qualquer maneira!
  • Você verá textos dizendo que a homoscedasticidade é uma suposição.
    • Mas você vê pesquisadores usando o OLS quando a homoscedasticidade é violada.

O que da?!

Uma resposta é que conjuntos de suposições um pouco diferentes podem ser usados ​​para justificar o uso da estimativa de mínimos quadrados ordinários (OLS). O OLS é uma ferramenta como um martelo: você pode usar um martelo nas unhas, mas também pode usá-lo em estacas, para quebrar o gelo, etc.

Duas grandes categorias de premissas são aquelas que se aplicam a amostras pequenas e aquelas que se baseiam em amostras grandes para que o teorema do limite central possa ser aplicado.

1. Pequenas suposições de amostra

Pequenas suposições de amostra, como discutidas em Hayashi (2000), são:

  1. Linearidade
  2. Exogeneidade estrita
  3. Sem multicolinearidade
  4. Erros esféricos (homoscedasticidade)

De acordo com (1) - (4), o teorema de Gauss-Markov se aplica, e o estimador de mínimos quadrados ordinário é o melhor estimador linear e imparcial.

  1. Normalidade dos termos de erro

Assumir ainda termos de erro normais permite o teste de hipóteses . Se os termos do erro forem condicionalmente normais, a distribuição do estimador OLS também será condicionalmente normal.

Outro ponto digno de nota é que, com normalidade, o estimador OLS também é o estimador de probabilidade máxima .

2. Grandes suposições de amostra

Essas suposições podem ser modificadas / relaxadas se tivermos uma amostra grande o suficiente para podermos confiar na lei de grandes números (para consistência do estimador OLS) e no teorema do limite central (para que a distribuição amostral do estimador OLS converja para a distribuição normal e podemos fazer testes de hipóteses, falar sobre valores-p etc ...).

Hayashi é um cara de macroeconomia e suas grandes suposições de amostra são formuladas com o contexto de séries temporais em mente:

  1. linearidade
  2. estacionariedade ergódica
  3. regressores predeterminados: os termos de erro são ortogonais aos seus termos de erro contemporâneos.
  4. E[xx] ocupa a classificação completa
  5. xiϵi é uma sequência de diferenças de martingale com segundos momentos finitos.
  6. 4º momentos finitos dos regressores

Você pode encontrar versões mais fortes dessas suposições, por exemplo, que os termos de erro são independentes.

Pressupostos adequados de amostra grande levam você a uma distribuição amostral do estimador OLS que é assintoticamente normal.

Referências

Hayashi, Fumio, 2000, Econometria

Matthew Gunn
fonte
5

É tudo sobre o que você quer fazer com o seu modelo. Imagine se seus erros foram positivamente distorcidos / não normais. Se você quisesse fazer um intervalo de previsão, poderia fazer melhor do que usar a distribuição t. Se sua variação for menor em valores previstos menores, novamente, você estará criando um intervalo de previsão muito grande.

É melhor entender por que as suposições existem.

Adão
fonte
4

Os diagramas a seguir mostram quais premissas são necessárias para obter quais implicações nos cenários finito e assintótico.

Suposições Finitas do OLS

suposições assintóticas do OLS

Eu acho que é importante pensar não apenas sobre quais são as suposições, mas quais são as implicações dessas suposições. Por exemplo, se você se preocupa apenas em ter coeficientes imparciais, não precisa da homosquasticidade.

DVL
fonte
2

A seguir, são apresentadas as premissas da análise de regressão linear.

Especificação correta . A forma funcional linear está especificada corretamente.

Exogeneidade estrita . Os erros na regressão devem ter média condicional zero.

Sem multicolinearidade . Os regressores em X devem ser todos linearmente independentes.

Homocedasticidade, o que significa que o termo de erro tem a mesma variação em cada observação.

Sem autocorrelação : os erros não são correlacionados entre as observações.

Normalidade. Às vezes, também é assumido que os erros têm distribuição normal condicional nos regressores.

Observações de Iid : são independentes e têm a mesma distribuição que, para todos os .(xi,yi)(xj,yj)ij

Para mais informações, visite esta página .

estatísticas de amor
fonte
4
Em vez de "sem multicolinearidade", eu diria "sem dependência linear". A colinearidade é frequentemente usada como uma medida contínua e não categórica. É apenas a colinearidade estrita ou exata que é proibida.
Peter Flom - Restabelece Monica
2
E a regressão de séries temporais? E quanto aos mínimos quadrados generalizados? Sua lista é um pouco parecida com a lista de mandamentos quando, na verdade, as quatro últimas suposições podem ser muito restritivas se nos preocupamos apenas com a consistência e a normalidade assintótica da estimativa dos mínimos quadrados.
Mvctas # 3/11
11
A multicolinearidade levanta problemas de interpretação (relacionados à identificabilidade de alguns parâmetros), mas definitivamente não é uma suposição padrão de modelos de regressão linear. Quase a multicolinearidade é principalmente um problema computacional, mas também levanta questões semelhantes de interpretação.
whuber
@whuber & Peter Flom: Como li no livro de Gujarati na página n. 65-75. tiny.cc/cwb2g Conta a "não multicolinearidade" como uma suposição da análise de regressão.
love-stats
@mpiktas: se você visitar o URL fornecido na resposta, encontrará suposições sobre a regressão de séries temporais.
love-stats
2

Não existe uma lista única de suposições; haverá pelo menos 2: uma para matriz de design fixa e outra para matriz de design aleatório. Além disso, você pode querer examinar as suposições para regressões de séries temporais (consulte a p.13)

O caso em que a matriz de projeto é fixa pode ser a mais comum, e suas suposições são frequentemente expressas como um teorema de Gauss-Markov . O design fixo significa que você realmente controla os regressores. Por exemplo, você realiza um experimento e pode definir parâmetros como temperatura, pressão etc. Veja também a p.13 aqui .X

Infelizmente, em ciências sociais como a economia, você raramente pode controlar os parâmetros do experimento. Geralmente, você observa o que acontece na economia, registra as métricas do ambiente e depois regride nelas. Acontece que é uma situação muito diferente e mais difícil, chamada de design aleatório . Nesse caso, o teorema de Gauss-Markov é modificado também ver p.12 aqui . Você pode ver como as condições agora são expressas em termos de probabilidades condicionais , o que não é uma mudança inócua.

Em econometria, as premissas têm nomes:

  • linearidade
  • exogeneidade estrita
  • sem multicolinearidade
  • variação de erro esférico (inclui homoscedasticidade e sem correlação)

Observe que eu nunca mencionei normalidade. Não é uma suposição padrão. É frequentemente usado em cursos de regressão introdutória porque facilita algumas derivações, mas não é necessário para que a regressão funcione e tenha boas propriedades.

Aksakal
fonte
1

A suposição de linearidade é que o modelo é linear nos parâmetros. É bom ter um modelo de regressão com efeitos de ordem quadrática ou superior, desde que a função de potência da variável independente faça parte de um modelo aditivo linear. Se o modelo não contiver termos de ordem superior quando deveria, a falta de ajuste será evidente no gráfico dos resíduos. No entanto, os modelos de regressão padrão não incorporam modelos nos quais a variável independente é elevada à potência de um parâmetro (embora existam outras abordagens que possam ser usadas para avaliar esses modelos). Tais modelos contêm parâmetros não lineares.

EstatísticasDoc Consulting
fonte
1

O coeficiente de regressão de mínimos quadrados fornece uma maneira de resumir a tendência de primeira ordem em qualquer tipo de dados. A resposta do @mpiktas é um tratamento completo das condições sob as quais os mínimos quadrados são cada vez mais ideais. Eu gostaria de ir para o outro lado e mostrar o caso mais geral quando menos quadrados funcionam. Vamos ver a formulação mais geral da equação dos mínimos quadrados:

E[Y|X]=α+βX

É apenas um modelo linear para a média condicional da resposta.

Observe que contratei o termo de erro. Se você quiser resumir a incerteza de , deve recorrer ao teorema do limite central. A classe mais geral de estimadores de mínimos quadrados converge para o normal quando a condição de Lindeberg é atendida : fervida, a condição de Lindeberg para mínimos quadrados exige que a fração do maior resíduo quadrado ao somatório da soma dos resíduos quadrados seja 0. . Se o seu projeto continuar amostrando resíduos cada vez maiores, o experimento estará "morto na água".βn

Quando a condição de Lindeberg é atendida, o parâmetro de regressão está bem definido e o estimador é um estimador imparcial que possui uma distribuição aproximada conhecida. Estimadores mais eficientes podem existir. Em outros casos de heterocedasticidade ou dados correlatos, geralmente um estimador ponderado é mais eficiente . É por isso que eu nunca defendia o uso de métodos ingênuos quando métodos melhores estão disponíveis. Mas eles geralmente não são!ββ^

AdamO
fonte
11
Para os economistas: vale ressaltar que essa condição implica estrita exogeneidade; portanto, estrita exogeneidade não precisa ser declarada como uma suposição no modelo de média condicional. É automaticamente verdade, matematicamente. (Falando teoria aqui, e não estimativas.)
Peter Westfall