Definição e delimitação do modelo de regressão

13

Uma pergunta embaraçosamente simples - mas parece que nunca foi feita no Cross Validated antes:

  1. Qual é a definição de um modelo de regressão?

Também uma pergunta de suporte,

  1. O que não é um modelo de regressão?

No que diz respeito a este último, estou interessado em exemplos complicados em que a resposta não é imediatamente óbvia. Por exemplo,

  • E os modelos de variáveis ​​latentes (por exemplo, ARIMA ou GARCH)?
Richard Hardy
fonte

Respostas:

9

Eu diria que "modelo de regressão" é um tipo de meta-conceito, no sentido de que você não encontrará uma definição de "modelo de regressão", mas conceitos mais concretos, como "regressão linear", "regressão não linear", "regressão robusta" e assim por diante. Da mesma maneira que na matemática, geralmente não definimos "número", mas "número natural", "números inteiros", "número real", "número p-adic" e assim por diante, e se alguém desejar incluir o número quaternions entre números assim seja! realmente não importa, o que importa é que definições são usadas pelo livro / artigo que você está lendo no momento.

Definições são ferramentas e essencialismo, que estão discutindo qual é a essência de ..., o que uma palavra realmente significa , raramente vale a pena.

Então, o que distingue um "modelo de regressão" de outros tipos de modelos estatísticos? Principalmente, que existe uma variável de resposta , que você deseja modelar como influenciada por (ou determinada por) algum conjunto de variáveis ​​preditivas . Não estamos interessados ​​em influenciar a outra direção e não estamos interessados ​​em relacionamentos entre as variáveis ​​preditoras. Principalmente, tomamos as variáveis ​​preditoras como dadas e as tratamos como constantes no modelo, não como variáveis ​​aleatórias.

A relação mencionada acima pode ser linear ou não linear, especificada de maneira paramétrica ou não paramétrica, e assim por diante.

Para delinear a partir de outros modelos, é melhor examinarmos outras palavras usadas para denotar algo diferente para "modelos de regressão", como "erros nas variáveis", quando aceitamos a possibilidade de erros de medição nas variáveis ​​preditivas. Isso poderia muito bem ser incluído na minha descrição do "modelo de regressão" acima, mas geralmente é tomado como um modelo alternativo.

Além disso, o que isso significa pode variar entre os campos. Consulte Qual é a diferença entre condicionar os regressores e tratá-los como fixos?

Repita: o que importa é a definição usada pelos autores que você está lendo agora, e não alguma metafísica sobre o que "realmente é".

kjetil b halvorsen
fonte
1
Eu concordo com a essência da sua resposta. Minha pergunta foi motivada por ter encontrado declarações sobre modelos de regressão que me deixaram imaginando a que a declaração realmente se aplica (e a que ela não se aplica). Claro, agora você pode dizer: "use seu bom senso e verifique os detalhes com cuidado", mas às vezes eu posso rejeitar a afirmação hipotética imediatamente dizendo que ela não é verdadeira em geral (talvez seja verdade apenas em um caso muito específico) . Então eu preciso de uma definição para me referir. É claro que existem mais situações em que é útil ter uma definição precisa.
Richard Hardy
Então você deve fazer perguntas específicas sobre os usos que encontrou, com referências.
b Kjetil Halvorsen
2
Não pretendo ser exigente, mas pense bem: alguém lhe pergunta o que você está fazendo, você diz: "Estou analisando / prevendo / testando [algo] usando modelos de regressão". - "O que é um modelo de regressão?" - (silêncio) Ou uma situação em uma aula introdutória de econometria: "Professor, o que é um modelo de regressão?" - (sem resposta). Penso que estas são perguntas muito naturais, por isso seria bom ter uma resposta.
Richard Hardy
1
Sim, seria bom ter uma resposta, mas não tenho certeza de que haja uma resposta canônica com a qual todos possam concordar. Eu tive uma idéia muito diferente de regressão de um livro estatístico como Seber: "Análise de regressão linear" como de um texto em econometria. Mas algumas idéias com as quais todos concordam. Eu acho que é realmente uma família de modelos. Então podemos perguntar qual é o núcleo comum de todos esses modelos.
b Kjetil Halvorsen
7

Duas respostas legais já foram dadas, mas eu gostaria de adicionar meus dois centavos.

YX1,...,XkY

μ=E(y|x1,,xk)=f(x1,,xk)

fμμeu1μ

Y

Tim
fonte
Obrigado. A intuição não dói, embora eu esteja procurando uma definição mais formal que eu possa colocar em alguém que me perguntou: então , o que é um modelo de regressão? e depois tentou escolher detalhes.
Richard Hardy
@RichardHardy Acho que esse é o principal recurso dos modelos de regressão compartilhado por todos eles.
Tim
3
y
2

Algumas reflexões baseadas na literatura:

F. Hayashi, no capítulo 1 de seu livro clássico de pós-graduação "Econometria" (2000), afirma que as seguintes suposições compreendem o modelo clássico de regressão linear:

  1. Linearidade
  2. Exogeneidade estrita
  3. Sem multicolinearidade
  4. Variação de erro esférico
  5. Regressores "fixos"

Wooldridge, no capítulo 2 de seu clássico livro introdutório de econometria "Econometria introdutória: uma abordagem moderna" (2012), afirma que a seguinte equação define o modelo de regressão linear simples:

y=β0 0+β1x+você.

Greene no capítulo 2 de seu livro popular de econometria "Econometric Analysis" (2011) afirma

O modelo clássico de regressão linear consiste em um conjunto de suposições sobre como um conjunto de dados será produzido por um "processo de geração de dados" subjacente.

e posteriormente fornece uma lista de suposições semelhantes às de Hayashi.

Uma curiosidade relevante para o último item do OP: Bollerslev " Heterosedasticidade condicional autoregressiva generalizada" (1986) inclui uma frase "o modelo de regressão GARCH" no título da seção 5 e também na primeira sentença dessa seção. Portanto, o pai do modelo GARCH não se importava em chamar GARCH de modelo de regressão.

Richard Hardy
fonte
1
Yf(X,β)
É verdade que meus exemplos são para modelos de regressão linear ; foi o que pude encontrar em fontes confiáveis, como esses livros didáticos amplamente utilizados e que se tornaram clássicos. Não confio tanto na Wikipedia quanto a questões estatísticas e econométricas. De qualquer forma, mesmo na Wikipedia, há um capítulo "Suposições subjacentes" que é semelhante ao que citei nos livros didáticos. Em relação ao outro post, você poderia postar a parte relevante do seu comentário lá para que eu pudesse responder lá? Neste post, eu não disse nada sobre modelos de variáveis ​​latentes, mas é bom ouvir sua opinião.
Richard Hardy
3
Por que o ponto 3, "sem multicolinearidade"? Eu nunca vi isso usado como uma suposição na prova de algum resultado!
Kjetil b halvorsen
1
@kjetilbhalvorsen, por favor, não me responsabilize pelo que está escrito em um livro do qual eu não sou o autor. Mas obrigado pelo comentário, é claro, e ainda mais pela resposta!
Richard Hardy