A suposição de linearidade na regressão linear é apenas uma definição de

10

Estou revisando a regressão linear.

O livro de Greene declara:

insira a descrição da imagem aqui insira a descrição da imagem aqui

Agora, é claro que haverá outras suposições no modelo de regressão linear, como E(ϵ|X)=0 . Essa suposição combinada com a suposição de linearidade (que na verdade define ϵ ) coloca a estrutura no modelo.

No entanto, a suposição de linearidade por si só não coloca nenhuma estrutura em nosso modelo, pois ϵ pode ser completamente arbitrário. Para quaisquer variáveis X,y , qualquer que seja a relação entre as duas, poderíamos definir um ϵ tal que a suposição de linearidade seja válida. Portanto, a linearidade "suposição" deve realmente ser chamado de uma definição de ϵ , ao invés de uma suposição.

Portanto, eu estou pensando :

  1. Greene está sendo desleixado? Ele deveria realmente ter escrito: ? Esta é uma "suposição de linearidade" que realmente estrutura o modelo.E(y|X)=Xβ

  2. Ou devo aceitar que a suposição de linearidade não coloca estrutura no modelo, mas apenas define um , onde as outras suposições usarão essa definição de ϵ para colocar a estrutura no modelo?ϵϵ


Edit : desde que parece haver alguma confusão em torno das outras suposições, deixe-me adicionar o conjunto completo de suposições aqui:

insira a descrição da imagem aqui

Isto é de Greene, Econometric Analysis, 7ª ed. p. 16

user56834
fonte
4
Estas são observações perceptivas (+1). Com toda a justiça, porém, acredito que a maioria dos autores (se não todos) trabalha dentro de uma estrutura na qual o próprio significado de um erro aditivo como inclui a suposição de que sua distribuição está centrada em 0 . ϵ0
whuber
2
@ Whuber, eu adicionei todo o conjunto de suposições. olhe para A3. A3 deixa explícito que está centrado em 0, o que implicaria que Greene não assume isso em A1, o que me deixa em dúvida se A1 tem algum conteúdo lógico, além de definir . ϵ
user56834
2
O significado pretendido de uma lista de suposições é que elas são coletivas, não separadamente. Isso não exibe nenhuma "negligência".
whuber
2
@ AdamO, a palavra "correto" parece não ter um significado preciso para mim. Estou tentando entender mais exatamente isso. Parece-me que a formulação mais precisa de tudo isso é dizer que a suposição 1 deve ser chamada de "definição de ", e então tudo faz sentido. Ou, na verdade, estou sentindo falta de algo, e é por isso que fiz essa pergunta. Infelizmente, até agora eu não vi uma resposta direta a essa perguntaϵ
user56834
2
@ Programmer2134 você está recebendo respostas imprecisas porque está fazendo uma pergunta imprecisa. Não se "estrutura a estrutura de um modelo", como você diz. Se o modelo médio errado ( ) for usado, a resposta será caracterizada como Y = f ( x ) + viés + erro . e os resíduos são tomados como a soma do viés e do erro. f(x)Y=f(x)+bias+error
AdamO 2/0118

Respostas:

8
  1. Greene está sendo desleixado? Ele deveria realmente ter escrito: ? Esta é uma "suposição de linearidade" que realmente estrutura o modelo.E(y|X)=Xβ

Em certo sentido, sim e não. Por um lado, sim, dada a atual pesquisa moderna sobre causalidade, ele é desleixado, mas, assim como a maioria dos livros didáticos de econometria, no sentido de que eles não fazem uma distinção clara de quantidades causais e observacionais, levando a confusões comuns como essa mesma pergunta. Mas, por outro lado, não, essa suposição não é desleixada no sentido de que é realmente diferente de simplesmente assumir .E(y|X)=Xβ

O cerne da questão aqui é a diferença entre a expectativa condicional e a equação estrutural (causal) de y , bem como sua expectativa estrutural (causal) E [ Y | d o ( X ) ]E(y|X)yE[Y|do(X)] . A suposição de linearidade em Greene é uma suposição estrutural . Vamos ver um exemplo simples. Imagine que a equação estrutural é:

y=βx+γx2+ϵ

Agora vamos . Então teríamos:E[ϵ|x]=δxγx2

E[y|x]=βx

onde . Além disso, podemos escrever y = β ' x + ε ' e teríamos E [ ε ' | x ] = 0 . Isso mostra que podemos ter uma expectativa condicional linear especificada corretamente E [ y | x ] que, por definição, terá um distúrbio ortogonal, mas a equação estrutural seria não-linear.β=β+δy=βx+ϵE[ϵ|x]=0E[y|x]

  1. ϵϵ

ϵϵ:=yXβ=yE[Y|do(X)]ϵy XϵE[Y|do(X)]E[Y|X]

ϵX,yϵ

yxϵβ

Nota

Vale ressaltar que a maioria dos livros de econometria é confusa quando se trata da distinção entre regressão e equações estruturais e seu significado. Isso foi documentado recentemente. Você pode conferir um artigo de Chen e Pearl aqui , bem como uma pesquisa extensa de Chris Auld . Greene é um dos livros examinados.

Carlos Cinelli
fonte
ϵxxyxy ϵ
11
yXϵ:=yE[Y|do(X)]=yXβϵXϵX
@ Programmer2134, a propósito, suas preocupações estão no caminho certo, acho que o Primer de Pearl sobre inferência causal pode ser um companheiro interessante para o de Greene!
Carlos Cinelli
Aliás, comecei a ler "Causalidade: Modelos, Raciocínio e Inferência", de Pearl, há um tempo atrás. Eu pensei que era muito interessante, mas foi um pouco abstrato para mim. Não fui além do capítulo 2. Você acha que "cartilha sobre inferência causal" será mais adequada? (ou seja, introduza conceitos de maneira mais intuitiva).
User56834
11
E(Y|x)
0

editado após comentários de OP e Matthew Drury

Para responder a essa pergunta, suponho que Greene e OP tenham em mente a seguinte definição de linearidade: Linearidade significa que, para cada unidade de aumento nesse preditor, o resultado é aumentado em beta ( ), em qualquer faixa possível de valores preditores esse aumento de uma unidade ocorre. Ou seja, a função é e não por exemplo ou . Além disso, essa suposição é focada nos betas e, portanto, aplica-se aos preditores (também conhecidas como variáveis ​​independentes).βy=f(x)y=a+bxy=a+bx2y=a+sin(x)

A expectativa de resíduos condicionais no modelo é outra coisa. Sim, é verdade que a matemática por trás de uma regressão linear define / tenta definir . No entanto, isso geralmente é definido em toda a faixa de valores ajustados / previstos para . Se você observar partes específicas do preditor linear e o valor previsto de , poderá notar heterocedasticidade (áreas em que a variação de é maior que em outros lugares) ou áreas em que . Uma associação não linear entre os 's e pode ser a causa disso, mas não é a única razão pela qual a heterocedasticidade ouE(ϵ|X)E(ϵ|X)=0yyϵE(ϵ|X)0xyE(ϵ|X)0 pode ocorrer (veja, por exemplo, falta de viés do preditor).

Pelos comentários: OP afirma que "a suposição de linearidade não restringe o modelo de forma alguma, dado que o epsilon é arbitrário e pode ser qualquer função de XX qualquer", com o que eu concordaria. Eu acho que isso fica claro pelas regressões lineares capazes de se ajustarem a qualquer dado, independentemente de a suposição de linearidade ser violada ou não. Estou especulando aqui, mas essa pode ser a razão pela qual Greene optou por manter o erro na fórmula - salvando para mais tarde - para denotar que, ao assumir linearidade, (e não o esperado) ) pode ser definido com base em mas mantém algum erro , independentemente de quais valoresϵE(ϵ|X)=0yyXϵϵleva. Só posso esperar que ele posteriormente declare a relevância de .E(ϵ|X)=0

Em resumo (sem dúvida, sem ler completamente o livro de Greene e verificar sua argumentação):

  1. Greene provavelmente se refere ao fato de os betas serem constantes para todo o intervalo do preditor (a ênfase deve ser colocada no beta nas equações ou ;y=Xβ+ϵE(ϵ|X)=Xβ
  2. A suposição de linearidade coloca alguma estrutura no modelo. No entanto, você deve observar que transformações ou adições, como splines antes da modelagem, podem fazer com que associações não lineares estejam em conformidade com a estrutura de regressão linear.
IWS
fonte
3
Isso é útil, mas o apelo à continuidade não é necessário em nenhum sentido. A maquinaria funciona da mesma maneira se for baseado apenas em preditores. X(0,1)
Nick Cox
11
Você escreveu mas acho que você quis dizer ,. f(y)f(x)
Nick Cox
@NickCox Eu editei esses pontos.
IWS
11
O que você quer dizer com normalidade? Se você quer dizer normalidade, está incorreto porque o epsilon não precisa ser normal para que ele tenha uma expectativa condicional de zero. Mas você quer dizer outra coisa? Além disso, sim beta é considerado constante para todas as observações. E o que você acha errado com meu argumento de que a suposição de linearidade não restringe o modelo de forma alguma, dado que o epsilon é arbitrário e pode ser qualquer função de ? Note que eu sei o que é heterocedasticidade e que linearidade significa linear em parâmetros, não em variáveis. X
user56834
3
Eu discordo disso. A suposição de expectativa não tem relação com a normalidade, mas é absolutamente necessária para entender a suposição de linearidade estrutural. Caso contrário, como observado pelo op, a suposição de linearidade não tem sentido. Uma suposição de normalidade é uma fera bem diferente e muitas vezes é desnecessária.
Matthew Drury
-1

Fiquei um pouco confuso com a resposta acima, portanto, darei outra chance. Penso que a questão não é realmente sobre regressão linear "clássica", mas sobre o estilo dessa fonte em particular. Na parte de regressão clássica:

No entanto, a suposição de linearidade por si só não coloca nenhuma estrutura em nosso modelo

Isso é absolutamente correto. Como você afirmou, pode muito bem eliminar a relação linear e adicionar algo completamente independente de para que não possamos computar nenhum modelo.ϵX

Greene está sendo desleixado? Ele deveria realmente ter escrito:E(y|X)=Xβ

Não quero responder à primeira pergunta, mas deixe-me resumir as suposições necessárias para a regressão linear usual:

Vamos supor que você observe (você recebe) pontos de dados e para . Você precisa assumir que os dados observados são provenientes de variáveis ​​aleatórias independentemente distribuídas de forma idêntica , de forma que ...xiRdyiRi=1,...,n(xi,yi)(Xi,Yi)

  1. Existe um fixo (independente de ) tal que para todo e as variáveis ​​aleatórias são tais queiβRdYi=βXi+ϵiiϵi

  2. O é iid e é distribuído como ( deve ser independente de )ϵiϵiN(0,σ)σi

  3. Para e as variáveis têm uma densidade comum, ou seja, a única variável aleatória possui uma densidadeX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y

Agora você pode executar o caminho usual e calcular

fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd)nexp(i=1n(yiβxi)22σ)

de modo que, pela "dualidade" usual entre aprendizado de máquina (minimização de funções de erro) e teoria das probabilidades (maximização de probabilidades), você maximiza em que de fato lhe fornece o material "RMSE" usual.βlogfY|X(y|x)β

Agora, como afirmado: se o autor do livro que você está citando deseja expressar esse argumento (o que você deve fazer se quiser calcular a melhor linha de regressão possível na configuração básica), então sim, ele deve faça essa suposição sobre a normalidade do em algum lugar do livro.ϵ

Existem diferentes possibilidades agora:

  • Ele não escreve essa suposição no livro. Então é um erro no livro.

  • Ele a escreve na forma de uma observação "global" como "sempre que eu escrevo então os são normalmente distribuídos com média zero, a menos que seja indicado de outra forma". Então IMHO é um estilo ruim, porque causa exatamente a confusão que você sente agora. É por isso que costumo escrever as suposições de alguma forma abreviada em todos os Teoremas. Somente então todos os blocos de construção podem ser visualizados de maneira limpa.ϵ+ϵϵ

    • Ele escreve de perto a parte que você está citando e você / nós simplesmente não percebemos (também é uma possibilidade :-))

No entanto, também em um sentido matemático estrito, o erro normal é algo canônico (a distribuição com a maior entropia [uma vez que a variação é fixa], portanto, produzindo os modelos mais fortes), de modo que alguns autores tendem a ignorar essa suposição, mas usam, no entanto, . Formalmente, você está absolutamente certo: eles estão usando a matemática da "maneira errada". Sempre que eles quiserem criar a equação para a densidade conforme declarado acima, eles precisam conhecer muito bem; caso contrário, você só tem propriedades dele voando em todas as equações sensatas que você tenta escrever . ϵfY|Xϵ

Fabian Werner
fonte
3
os erros não precisam ser normalmente distribuídos para usar o OLS.
user56834
(-1) Os erros não precisam ser normalmente distribuídos. Na verdade, eles nem precisam ser independentes ou distribuídos de forma idêntica para que a estimativa de parâmetros seja imparcial e que os testes sejam consistentes. Suas especificações muito mais rigorosas são necessárias para que o OLS seja um teste exato.
AdamO
@AdamO: Ah? Então, como você calcula a probabilidade então? Ou melhor ... se você for solicitado a implementar a regressão linear: qual linha de regressão você seleciona se o erro não for normalmente distribuído e o único não for independente? ϵi
Fabian Werner
11
@FabianWerner minha escolha de modelo depende da pergunta que deve ser feita. A regressão linear estima uma tendência de primeira ordem em um conjunto de dados, uma "regra prática" que relaciona uma diferença em X com uma diferença em Y. Se os erros não são normalmente distribuídos, o Lindeberg Feller CLT garante que os ICs e PIs estejam aproximadamente corretos em amostras muito pequenas. Se os erros não forem independentes (e a estrutura de dependência for desconhecida), as estimativas não serão tendenciosas, embora os SEs possam estar incorretos. A estimativa de erro sanduíche alivia esse problema.
Adamo