Dadas duas variáveis aleatórias e , podemos calcular seu "coeficiente de correlação" e formar a linha de melhor ajuste entre essas duas variáveis aleatórias. Minha pergunta é por que?
1) Existem variáveis aleatórias, e que são dependentes da pior maneira possível, ou seja, e apesar disso . Se pensarmos apenas na regressão linear, ficaríamos totalmente cegos para isso.
2) Por que linear especificamente? Existem outros tipos de relacionamentos que podem existir entre variáveis aleatórias. Por que escolher aquele dentre todos os outros?
regression
Nicolas Bourbaki
fonte
fonte
Respostas:
Concordo que nem todas as relações são lineares em si, mas muitas relações podem ser linearmente aproximadas. Já vimos muitos casos em matemática, como a série de Taylor ou a série de Fourier, etc. O ponto-chave aqui é, geomatt22 disse no comentário: em geral, você pode transformar os dados não-lineares e aplicar algum tipo de transformação com funções básicas e linearizar o relação. A razão pela qual as universidades abordam apenas 'vários modelos de regressão linear' (incluindo modelos de regressão simples) é porque eles são o alicerce para modelos de nível mais avançado que também são lineares.
Matematicamente falando, desde que você possa provar que uma certa aproximação linear é densa em um espaço de Hilbert, você poderá usar a aproximação para representar uma função no espaço.
fonte
O modelo ao qual você está se referindo, regressão linear simples, também conhecida como "a linha de melhor ajuste" (estou confundindo modelo e método de estimativa aqui), é reconhecidamente muito simples (como o nome diz). Por que estudá-lo? Eu posso ver muitas razões. A seguir, presumo que o conceito de variável aleatória tenha sido introduzido pelo menos informalmente, porque você o mencionou na sua pergunta.
fonte
Uma outra razão é a maneira adorável pela qual a regressão fornece um tratamento unificado de técnicas como ANOVA. Para mim, o tratamento "elementar" usual da ANOVA parece bastante obscuro, mas um tratamento baseado em regressão é claro. Suspeito que isso tenha muito a ver com a maneira como os modelos de regressão explicitam algumas suposições de que nos tratamentos "elementares" são tácitos e não examinados. Além disso, a clareza conceitual oferecida por essa perspectiva unificadora é acompanhada de benefícios práticos semelhantes quando chega a hora de implementar métodos em software estatístico.
Esse princípio se aplica não apenas à ANOVA, mas a extensões como splines cúbicos restritos - que abordam notavelmente sua segunda pergunta.
fonte
A popularidade da regressão linear é devida em parte à sua interpretabilidade - ou seja, pessoas não técnicas podem entender os coeficientes dos parâmetros com apenas um pouco de explicação. Isso agrega muito valor em situações de negócios, nas quais os usuários finais da saída ou das previsões podem não ter um entendimento profundo de matemática / estatística.
Sim, existem suposições e limitações com essa técnica (como em todas as abordagens) e ela pode não fornecer o melhor ajuste em muitos casos. Mas a regressão linear é muito robusta e geralmente pode ter um desempenho muito bom, mesmo quando as suposições são violadas.
Por essas razões, definitivamente vale a pena estudar.
fonte
Algo pode não estar diretamente relacionado.
Se você tem duas sériesx e y naquela c o v ( x , y) = 0 e se você suspeitar que há relação entre x e y . Você poderia fazer um enredo entrey e x para examinar o relacionamento deles.
fonte