Atualmente, estou em uma aula de regressão linear, mas não posso deixar de pensar que o que estou aprendendo não é mais relevante nas estatísticas modernas ou no aprendizado de máquina. Por que se gasta tanto tempo deduzindo-se na regressão linear simples ou múltipla quando tantos conjuntos de dados interessantes atualmente violam muitas das suposições irrealistas da regressão linear? Por que não ensinar inferência sobre ferramentas modernas e mais flexíveis, como regressão usando máquinas de vetores de suporte ou processo Gaussiano? Embora seja mais complicado do que encontrar um hiperplano em um espaço, isso não daria aos alunos uma experiência muito melhor para resolver os problemas modernos?
regression
machine-learning
linear
teaching
Emu anônimo
fonte
fonte
Respostas:
É verdade que as suposições da regressão linear não são realistas. No entanto, isso é verdade para todos os modelos estatísticos. "Todos os modelos estão errados, mas alguns são úteis."
Eu acho que você tem a impressão de que não há razão para usar a regressão linear quando você pode usar um modelo mais complexo. Isso não é verdade, porque, em geral, modelos mais complexos são mais vulneráveis à adaptação excessiva e usam mais recursos computacionais, o que é importante se, por exemplo, você estiver tentando fazer estatísticas em um processador incorporado ou em um servidor da web. Modelos mais simples também são mais fáceis de entender e interpretar; por outro lado, modelos complexos de aprendizado de máquina, como redes neurais, tendem a acabar como caixas-pretas, mais ou menos.
Mesmo que a regressão linear um dia se torne praticamente útil (o que parece extremamente improvável no futuro próximo), ela ainda será teoricamente importante, porque modelos mais complexos tendem a se basear na regressão linear. Por exemplo, para entender uma regressão logística regular de efeitos mistos, você precisa entender primeiro a regressão linear simples e antiga.
Isso não quer dizer que modelos mais complexos, mais novos e mais brilhantes não sejam úteis ou importantes. Muitos deles são. Mas os modelos mais simples são mais amplamente aplicáveis e, portanto, mais importantes, e claramente fazem sentido apresentar primeiro se você vai apresentar uma variedade de modelos. Atualmente, existem muitas análises de dados ruins conduzidas por pessoas que se autodenominam "cientistas de dados" ou algo assim, mas nem mesmo sabem o que é fundamental, como o que realmente é um intervalo de confiança. Não seja uma estatística!
fonte
A regressão linear em geral não é obsoleta . Ainda existem pessoas trabalhando em pesquisas sobre métodos relacionados ao LASSO e como eles se relacionam a vários testes, por exemplo - você pode pesquisar no Google Emmanuel Candes e Malgorzata Bogdan.
Se você está perguntando sobre o algoritmo OLS em particular, a resposta por que eles ensinam isso é que o método é tão simples que possui uma solução de formulário fechado. Também é mais simples que a regressão de cume ou a versão com laço / rede elástica. Você pode construir sua intuição / provas na solução para regressão linear simples e depois enriquecer o modelo com restrições adicionais.
fonte
Não acho que a regressão seja antiga, pode ser considerada trivial para alguns problemas atualmente enfrentados pelos cientistas de dados, mas ainda é o ABC da análise estatística. Como você deve entender se o SVM está funcionando corretamente, se você não sabe como o modelo mais simples está funcionando? O uso de uma ferramenta tão simples ensina a analisar os dados antes de entrar em modelos complexos e malucos e entender profundamente quais ferramentas podem ser usadas em análises adicionais e quais não podem. Depois de conversar com um professor e um colega meu, ela me disse que seus alunos eram ótimos em aplicar modelos complexos, mas não conseguiam entender o que era alavancagem ou ler um qq-plot simples para entender o que havia de errado com os dados. Muitas vezes, no modelo mais simples e legível, destaca-se a beleza.
fonte
A resposta curta é não . Por exemplo, se você tentar o modelo linear com dados MNIST, ainda terá ~ 90% da precisão!
Uma resposta longa seria "dependendo do domínio", mas o modelo linear é amplamente usado.
Em certos campos, digamos, em estudos médicos, é muito caro obter um ponto de dados. E o trabalho de análise ainda é semelhante a muitos anos atrás: a regressão linear ainda desempenha um papel muito importante.
No aprendizado de máquina de morden, digamos, na classificação de texto, o modelo linear ainda é muito importante, embora existam outros modelos mais sofisticados. Isso ocorre porque o modelo linear é muito "estável" e terá menos como ajustar demais os dados.
Finalmente, o modelo linear é realmente o alicerce da maioria dos outros modelos. Aprender bem beneficiará você no futuro.
fonte
Em termos práticos, a regressão linear é útil mesmo se você também estiver usando um modelo mais complexo para o seu trabalho. A chave é que a regressão linear é fácil de entender e, portanto, fácil de usar para entender conceitualmente o que está acontecendo em modelos mais complexos.
Posso oferecer um exemplo prático de aplicação do meu trabalho real ao vivo como analista estatístico. Se você se encontra em estado selvagem, sem supervisão, com um grande conjunto de dados, e seu chefe pede que você faça algumas análises, por onde começar? Bem, se você não está familiarizado com o conjunto de dados e não tem uma boa idéia de como os vários recursos devem se relacionar, um modelo complexo como os que você sugeriu é um mau lugar para começar a investigar.
Em vez disso, o melhor lugar para começar é a simples regressão linear antiga. Faça uma análise de regressão, observe os coeficientes e faça um gráfico dos resíduos. Depois de começar a ver o que está acontecendo com os dados, você pode tomar algumas decisões sobre quais métodos avançados você tentará aplicar.
Afirmo que, se você acabou de conectar seus dados a uma caixa preta de modelo avançado como sklearn.svm (se você usa o Python), terá uma confiança muito baixa de que seus resultados serão significativos.
fonte