Por que estudar regressão linear?

13

Dadas duas variáveis ​​aleatórias ξ e η , podemos calcular seu "coeficiente de correlação" c e formar a linha de melhor ajuste entre essas duas variáveis ​​aleatórias. Minha pergunta é por que?

1) Existem variáveis ​​aleatórias, ξ e η que são dependentes da pior maneira possível, ou seja, ξ=f(η) e apesar disso c=0 . Se pensarmos apenas na regressão linear, ficaríamos totalmente cegos para isso.

2) Por que linear especificamente? Existem outros tipos de relacionamentos que podem existir entre variáveis ​​aleatórias. Por que escolher aquele dentre todos os outros?

Nicolas Bourbaki
fonte
18
É como perguntar por que você possui uma chave de fenda quando às vezes encontra unhas.
Sycorax diz Reinstate Monica
6
Você também parece estar assumindo a premissa de que existem pessoas por aí que se preocupam apenas com a regressão linear: "Se alguém apenas pensa na regressão linear", "Por que escolher aquela entre todas as outras "? Isso me parece um palhaço, é claro que é ridículo aderir a uma e apenas uma ferramenta ou perspectiva.
Matthew Drury
7
Linear "especificamente" é realmente mais sobre combinações lineares de funções básicas , que são bastante gerais na verdade.
GeoMatt22
2
@MatthewDrury Não há palhaço, e não estou assumindo nada, estou apenas fazendo uma pergunta usando um caso patológico de extremo extremo para ilustrar um ponto fraco do método. Por que você assume que eu assumo isso? A regressão é um tópico muito grande para estatísticos. Eu não entendo o que há de tão especial que é tão estudado.
Nicolas Bourbaki
8
Para aqueles que estão se perguntando muito sobre essa questão: acho que você se esqueceu quando aprendeu sobre a regressão linear e lhe disseram que "uma das suposições é a de um efeito linear". Você pensou "mas um efeito nunca é linear!". Muito provavelmente, após muita reflexão, você se convenceu de que, apesar disso, a regressão linear ainda era uma ferramenta fundamental a ser entendida e usada. Agora, redefina-se para voltar antes de concluir essa reflexão. Eu acho que é uma ótima pergunta que todo estudante de estatística gaste bastante tempo considerando.
Cliff AB

Respostas:

9

Concordo que nem todas as relações são lineares em si, mas muitas relações podem ser linearmente aproximadas. Já vimos muitos casos em matemática, como a série de Taylor ou a série de Fourier, etc. O ponto-chave aqui é, geomatt22 disse no comentário: em geral, você pode transformar os dados não-lineares e aplicar algum tipo de transformação com funções básicas e linearizar o relação. A razão pela qual as universidades abordam apenas 'vários modelos de regressão linear' (incluindo modelos de regressão simples) é porque eles são o alicerce para modelos de nível mais avançado que também são lineares.

Matematicamente falando, desde que você possa provar que uma certa aproximação linear é densa em um espaço de Hilbert, você poderá usar a aproximação para representar uma função no espaço.

Daeyoung Lim
fonte
2
Exatamente. Ninguém mais o mencionou, mas como essa resposta diz, em geral, você sempre pode aplicar uma transformação às suas variáveis ​​para linearizar o relacionamento. Além disso: a) é fácil encontrar máximos globais para regressões lineares eb) muitos outros modelos, incluindo redes neurais, são mais fáceis de entender se você conhece regressões logísticas baseadas em regressões lineares.
Ricardo Cruz
7

O modelo ao qual você está se referindo, regressão linear simples, também conhecida como "a linha de melhor ajuste" (estou confundindo modelo e método de estimativa aqui), é reconhecidamente muito simples (como o nome diz). Por que estudá-lo? Eu posso ver muitas razões. A seguir, presumo que o conceito de variável aleatória tenha sido introduzido pelo menos informalmente, porque você o mencionou na sua pergunta.

  1. pedagógico: é claro, para você, é óbvio que variáveis ​​aleatórias de valor real com momentos finitos de segunda ordem formam um espaço de Hilbert. Talvez já fosse óbvio quando você estudou a teoria da probabilidade. Mas a estatística não é ensinada apenas aos estudantes de matemática: existe um público mais amplo, da física à economia, às ciências da computação, às ciências sociais, etc. Esses estudantes podem encontrar estatísticas no início de seus estudos. Eles podem ou não ter sido expostos à álgebra linear e, mesmo no primeiro caso, podem não ter visto do ponto de vista mais abstrato de um curso de matemática. Para esses alunos, o próprio conceito de aproximação de uma variável aleatória por outra variável aleatória não é tão imediato. Até a propriedade básica do modelo linear simples, ou seja, o fato de o erro e o preditor serem variáveis ​​aleatórias ortogonais, às vezes é surpreendente para eles. O fato de você poder definir um "ângulo" entre variáveis ​​aleatórias (objetos "desagradáveis"! Funções mensuráveis ​​de um espaço de probabilidade para um espaço mensurável) pode ser óbvio para você, mas não necessariamente para um calouro. Assim, se o estudo de espaços vetoriais começa com o bom e velho plano euclidiano, não faz sentido iniciar o estudo de modelos estatísticos com o mais simples?
  2. ξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ϵ
  3. prático : existem inúmeras aplicações bem-sucedidas de regressão linear simples. A lei de Okun em economia, lei de Hooke , a lei de Ohm e lei de Charles em física, a relação entre a pressão arterial sistólica e idade na medicina (não tenho idéia se ele tem um nome!) São exemplos de regressão linear simples, com diferentes graus de precisão.
DeltaIV
fonte
4

Uma outra razão é a maneira adorável pela qual a regressão fornece um tratamento unificado de técnicas como ANOVA. Para mim, o tratamento "elementar" usual da ANOVA parece bastante obscuro, mas um tratamento baseado em regressão é claro. Suspeito que isso tenha muito a ver com a maneira como os modelos de regressão explicitam algumas suposições de que nos tratamentos "elementares" são tácitos e não examinados. Além disso, a clareza conceitual oferecida por essa perspectiva unificadora é acompanhada de benefícios práticos semelhantes quando chega a hora de implementar métodos em software estatístico.

Esse princípio se aplica não apenas à ANOVA, mas a extensões como splines cúbicos restritos - que abordam notavelmente sua segunda pergunta.

David C. Norris
fonte
3

A popularidade da regressão linear é devida em parte à sua interpretabilidade - ou seja, pessoas não técnicas podem entender os coeficientes dos parâmetros com apenas um pouco de explicação. Isso agrega muito valor em situações de negócios, nas quais os usuários finais da saída ou das previsões podem não ter um entendimento profundo de matemática / estatística.

Sim, existem suposições e limitações com essa técnica (como em todas as abordagens) e ela pode não fornecer o melhor ajuste em muitos casos. Mas a regressão linear é muito robusta e geralmente pode ter um desempenho muito bom, mesmo quando as suposições são violadas.

Por essas razões, definitivamente vale a pena estudar.

B.Frost
fonte
-2

Algo pode não estar diretamente relacionado.

Se você tem duas séries x e y naquela cov(x,y)=0 0e se você suspeitar que há relação entre x e y. Você poderia fazer um enredo entrey e x para examinar o relacionamento deles.

Zhu Jinxuan
fonte