O GLM é um modelo estatístico ou de aprendizado de máquina?

11

Eu pensei que o modelo linear generalizado (GLM) seria considerado um modelo estatístico, mas um amigo me disse que alguns artigos o classificam como uma técnica de aprendizado de máquina. Qual deles é verdadeiro (ou mais preciso)? Qualquer explicação seria apreciada.

user77571
fonte
1
Eu acho que o aprendizado de máquina geralmente é uma aplicação de modelagem estatística, então eu diria que é ambos.
joews

Respostas:

21

Um GLM é absolutamente um modelo estatístico, mas modelos estatísticos e técnicas de aprendizado de máquina não são mutuamente exclusivas. Em geral, a estatística está mais preocupada em inferir parâmetros, enquanto no aprendizado de máquina, a previsão é o objetivo final.

Ben
fonte
15

Em relação à previsão, as estatísticas e as ciências da aprendizagem de máquina começaram a resolver principalmente o mesmo problema sob diferentes perspectivas.

Basicamente, as estatísticas pressupõem que os dados foram produzidos por um determinado modelo estocástico. Portanto, do ponto de vista estatístico, um modelo é assumido e, com várias premissas, os erros são tratados e os parâmetros do modelo e outras questões são inferidos.

O aprendizado de máquina vem da perspectiva da ciência da computação. Os modelos são algorítmicos e, geralmente, são necessárias poucas suposições com relação aos dados. Trabalhamos com espaço de hipóteses e viés de aprendizado. A melhor exposição de aprendizado de máquina que encontrei está contida no livro de Tom Mitchell chamado Machine Learning .

Para uma idéia mais exaustiva e completa sobre as duas culturas, você pode ler o artigo de Leo Breiman chamado Statistical Modeling: The Two Cultures

No entanto, o que se deve acrescentar é que, mesmo que as duas ciências tenham começado com perspectivas diferentes, ambas agora compartilham uma quantidade razoável de conhecimentos e técnicas comuns. Porque, porque os problemas eram os mesmos, mas as ferramentas eram diferentes. Portanto, agora o aprendizado de máquina é tratado principalmente de uma perspectiva estatística (verifique o livro de Hastie, Tibshirani, Friedman, The Elements of Statistical Learning, do ponto de vista do aprendizado de máquina, com um tratamento estatístico, e talvez o livro de Kevin P. Murphy, Machine Learning: A perspectiva probabilística , para citar apenas alguns dos melhores livros disponíveis hoje).

Até a história do desenvolvimento desse campo mostra os benefícios dessa mescla de perspectivas. Vou descrever dois eventos.

A primeira é a criação de árvores CART, criadas por Breiman com um sólido histórico estatístico. Aproximadamente ao mesmo tempo, Quinlan desenvolveu o ID3, C45, See5 e assim por diante, um conjunto de árvores de decisão com mais experiência em ciência da computação. Agora, ambas as famílias de árvores e os métodos do conjunto, como ensacamento e florestas, tornam-se bastante semelhantes.

A segunda história é sobre impulsionar. Inicialmente, eles foram desenvolvidos por Freund e Shapire quando descobriram o AdaBoost. As escolhas para projetar o AdaBoost foram feitas principalmente de uma perspectiva computacional. Mesmo os autores não entenderam bem por que isso funciona. Apenas 5 anos depois, Breiman (de novo!) Descreveu o modelo adaboost de uma perspectiva estatística e deu uma explicação do porquê disso funciona. Desde então, vários cientistas eminentes, com ambos os tipos de formação, desenvolveram ainda mais essas idéias, levando a uma plêiade de algoritmos de impulso, como aumento de logística, aumento de gradiente, aumento suave e assim por diante. Agora é difícil pensar em impulsionar sem um sólido histórico estatístico.

Modelos lineares generalizados é um desenvolvimento estatístico. No entanto, novos tratamentos bayesianos colocam esse algoritmo também no playground de aprendizado de máquina. Portanto, acredito que ambas as afirmações podem estar certas, uma vez que a interpretação e o tratamento de como funciona podem ser diferentes.

rapaio
fonte
5

Além da resposta de Ben, a distinção sutil entre modelos estatísticos e modelos de aprendizado de máquina é que, nos modelos estatísticos, você decide explicitamente a estrutura da equação de saída antes de construir o modelo. O modelo é construído para calcular os parâmetros / coeficientes.

Veja o modelo linear ou GLM, por exemplo,

y = a1x1 + a2x2 + a3x3

Suas variáveis ​​independentes são x1, x2, x3 e os coeficientes a serem determinados são a1, a2, a3. Você define sua estrutura de equações dessa maneira antes de construir o modelo e calcular a1, a2, a3. Se você acredita que y está de alguma forma correlacionado com x2 de forma não linear, você pode tentar algo como isto.

y = a1x1 + a2(x2)^2 + a3x3.

Assim, você coloca uma restrição em termos da estrutura de saída. Modelos estatísticos inerentes são modelos lineares, a menos que você aplique explicitamente transformações como sigmóide ou kernel para torná-las não lineares (GLM e SVM).

No caso de modelos de aprendizado de máquina, você raramente especifica a estrutura de saída e os algoritmos, como as árvores de decisão, são inerentemente não lineares e funcionam com eficiência.

Ao contrário do que Ben apontou, os modelos de aprendizado de máquina não são apenas sobre previsão, eles fazem classificação, regressão, etc., que podem ser usados ​​para fazer previsões que também são feitas por vários modelos estatísticos.

binga
fonte
Usando essa lógica, as redes neurais são modelos estatísticos, já que a arquitetura é decidida previamente. Não acho que tentativas de definir um corte claro entre estatística e aprendizado de máquina sejam possíveis nem necessárias.
Marc Claesen
Essa é exatamente a razão pela qual mencionei a palavra 'raramente' no parágrafo de aprendizado de máquina. Eu não disse que você absolutamente não! Bem, para as pessoas que começam a explorar essas coisas, é bom saber as nuances entre a aprendizagem estatística e aprendizagem de máquina
Binga
Eu gostei dessa explicação. Descobri que no mundo das estatísticas há uma grande ênfase na normalização de dados, engenharia de recursos e ajuste de modelos. No mundo da ML, embora ainda seja importante, parece que as pessoas usam regularização e grandes quantidades de dados para 'encontrar o modelo certo', exigindo menos pressupostos iniciais. Nota: Esse é o meu senso de ter feito um mestrado em ambos, mas dou as boas-vindas a outros que me corrijam se acharem que estou errado.
user1761806
2

O GLM é absolutamente um modelo estatístico, enquanto mais e mais métodos estatísticos estão sendo aplicados na produção industrial como truques de aprendizado de máquina . A metanálise que mais li durante esses dias é um bom exemplo no campo estatístico.

Uma aplicação industrial perfeita com o GLM pode explicar por que seu amigo lhe disse que o GLM era considerado uma técnica de aprendizado de máquina . Você pode consultar o artigo original http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdf sobre isso.

Eu implementei uma simplificada que foi tratada como a estrutura principal do meu sistema de recomendação no cenário de produção há algumas semanas. Muito apreciado se você me der algumas dicas, e poderá verificar o código-fonte: https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala

Espero que isso ajude você, bom dia!

Joe
fonte