Modelos preditivos: as estatísticas não podem superar o aprendizado de máquina? [fechadas]

14

Atualmente, estou seguindo um programa de mestrado focado em estatística / econometria. No meu mestrado, todos os alunos tiveram que fazer 3 meses de pesquisa. Na semana passada, todos os grupos tiveram que apresentar suas pesquisas para o restante dos estudantes de mestrado.

Quase todos os grupos fizeram modelagem estatística e modelagem de aprendizado de máquina para seus tópicos de pesquisa e sempre que previsões fora da amostra vieram falar, os modelos simples de aprendizado de máquina venceram os modelos estatísticos muito sofisticados nos quais todos trabalharam muito nos últimos 3 meses. Não importa o quão bons sejam os modelos estatísticos de todos, uma floresta aleatória simples tem sempre menos erros fora da amostra.

Eu queria saber se esta é uma observação geralmente aceita? Que, se se trata de previsões fora da amostra, simplesmente não há como vencer uma floresta aleatória simples ou um modelo de aumento de gradiente extremo? Esses dois métodos são super simples de implementar usando pacotes R, enquanto todos os modelos estatísticos criados por todos exigem muita habilidade, conhecimento e esforço para estimar.

Quais são seus pensamentos sobre isso? É o único benefício dos modelos estatísticos / econométricos que você obtém interpretação? Ou nossos modelos não foram bons o suficiente para não terem superado significativamente as previsões simples de florestas aleatórias? Existem documentos que abordam esse problema?

dubvice
fonte
5
Isso pode muito bem ser fechado como "muito amplo". (Espero que não seja "baseado em opiniões"!) Minha opinião: não acho que exista uma resposta universal. Minha experiência é que os modelos estatísticos são melhores se houver menos observações, porque a imposição de algum tipo de estrutura melhora uma abordagem amplamente livre de modelos. Por outro lado, os RFs são melhores se houver muitas observações. ...
Stephan Kolassa
4
... A outra pergunta é o que exatamente foi avaliado e como. Se as previsões pontuais foram avaliadas adequadamente (medidas de precisão podem ser surpreendentemente enganosas), isso é uma questão diferente do que se as previsões de densidade fossem. Os modelos estatísticos podem ser melhores nas previsões de densidade, novamente porque você precisa de muito mais dados.
23419 Stephan Stephanassass
1
@StephanKolassa: Eu acho que uma boa resposta (ou um conjunto de várias respostas) para essa pergunta incluiria razões pelas quais não há uma resposta universal - teoricamente e praticamente -, como o desempenho preditivo é avaliado, como fazer uma distinção entre estatística e máquina métodos de aprendizado, quais objetivos podem estar além da previsão e algumas coisas em que não pensei. Então, um amplo escopo; mas não muito amplo na minha opinião, e tentar limitá-lo pode impedir a apresentação de pontos gerais úteis.
Scortchi - Reinstate Monica
5
O que não queremos é uma coleção de histórias - exorto os usuários a sinalizarem para respostas de exclusão que chegam a pouco mais do que, por exemplo, "sempre achei que florestas aleatórias vencem a regressão logística", por mais prolixo que seja. Podemos ser um pouco mais preguiçosos com relação a comentários, mas tópicos longos serão movidos para o bate-papo.
Scortchi - Reinstate Monica
14
Não acho que haja uma distinção significativa entre estatística e aprendizado de máquina. Por exemplo, Leo Breiman, um proeminente pesquisador aleatório da floresta, era professor de estatística na UC Berkeley. No contexto de sua anedota, a RF era melhor do que os outros modelos que as pessoas se encaixavam, mas não vejo razão para que isso deva ser verdade em geral (consulte também o teorema No Free Lunch). Talvez isso diga mais sobre o conjunto de dados (ou mesmo sobre os alunos) do que sobre os métodos.
Sycorax diz Restabelecer Monica

Respostas:

20

A modelagem estatística é diferente do aprendizado de máquina. Por exemplo, uma regressão linear é um modelo estatístico e um modelo de aprendizado de máquina. Portanto, se você comparar uma regressão linear a uma floresta aleatória, estará apenas comparando um modelo mais simples de aprendizado de máquina com um modelo mais complicado. Você não está comparando um modelo estatístico a um modelo de aprendizado de máquina.

A modelagem estatística fornece mais do que interpretação; na verdade, fornece um modelo de algum parâmetro populacional. Depende de uma grande estrutura de matemática e teoria, que permite fórmulas para coisas como a variação de coeficientes, variação de previsões e teste de hipóteses. O rendimento potencial da modelagem estatística é muito maior que o aprendizado de máquina, porque você pode fazer fortes declarações sobre os parâmetros da população em vez de apenas medir o erro na validação, mas é consideravelmente mais difícil abordar um problema com um modelo estatístico.

user0
fonte
1
Pelo que entendi, você diz que, com as estatísticas, você obtém mais benefícios, como a variação de coeficientes, variação de previsões e teste de hipóteses. Mas quando se trata puramente de modelagem preditiva, ou seja, fazer previsões pontuais de alguma variável de resposta, você acha que os modelos estatísticos podem superar os modelos de aprendizado de máquina?
dubvice
5
Esta é a resposta (+1!). Na minha opinião (e talvez também de outros), existem vários tipos de análises estatísticas: descritiva, inferencial, preditiva, exploratória etc. O aprendizado de máquina geralmente se enquadra na análise preditiva, e a maior parte não permite que você faça inferências afirmações sobre as coisas, então tudo se resume a "usar a ferramenta certa para o trabalho em questão" (dado o exemplo de regressão linear, ela pode ser usada em todos os campos, por exemplo, estimar expectativas condicionais, que é uma tarefa descritiva).
Firebug
2
Isso soa como a afirmação de que a modelagem estatística padrão pode ser melhor para inferência (em oposição à previsão) do que aprendizado de máquina, o que pode ajudar a modelar a interpretabilidade. Embora certamente seja verdade se compararmos uma regressão de mínimos quadrados ordinários a uma rede neural profunda, já que a pergunta original faz referência específica à floresta aleatória (um bom algoritmo de ML para inferência), essa afirmação é um pouco confusa.
Greenstick
2
Aqui estão algumas evidências sólidas do domínio das séries temporais em que os modelos estatísticos superam consistentemente as abordagens de aprendizado de máquina: Makridakis "Métodos de previsão estatística e de aprendizado de máquina: preocupações e caminhos a seguir" .
Richard Hardy
1
Essa é apenas a resposta perfeita. Aqui está um exemplo: digamos que você tenha uma medida que prediz a sobrevivência de pacientes com uma determinada doença. Existem padrões internacionais sobre como definir se essa medida é clinicamente válida (basicamente se o coeficiente for diferente de 0 com um valor abaixo de 5% em um modelo univariado ou multivariado). Embora eu esteja absolutamente certo de que 99% das vezes uma floresta aleatória com dados suficientes seria um modelo de previsão muito melhor.
Rémy Nicolle 28/03
5

É errado afirmar a pergunta da maneira que você a formulou. Por exemplo, uma parte significativa do aprendizado de máquina pode ser chamada de aprendizado estatístico . Portanto, sua comparação é como maçãs versus tortas de frutas.

No entanto, seguirei o modo como você o estruturou e afirmo o seguinte: quando se trata de previsão, nada pode ser feito sem alguma forma de estatística, porque a previsão possui inerentemente aleatoriedade (incerteza). Considere o seguinte: apesar do enorme sucesso do aprendizado de máquina em algumas aplicações, ele não tem absolutamente nada para mostrar na previsão de preço dos ativos. Nada mesmo. Por quê? Porque na maioria dos mercados líquidos desenvolvidos, os preços dos ativos são inerentemente estocásticos.

Você pode executar o aprendizado de máquina o dia inteiro para observar e aprender sobre o decaimento radioativo de átomos, e ele nunca será capaz de prever o tempo de decaimento do próximo átomo, simplesmente por ser aleatório.

Como aspirante a estatístico, seria tolice do seu lado não dominar o aprendizado de máquina, porque é uma das aplicações mais quentes da estatística, a menos que, é claro, você saiba com certeza que está indo para a academia. Qualquer pessoa que provavelmente trabalhe no setor precisa dominar o ML. Não há animosidade ou competição entre estatísticas e multidões de ML. De fato, se você gosta de programar, vai se sentir em casa no campo ML

Aksakal
fonte
2

Geralmente não, mas potencialmente sim com erros de especificação. O problema que você está procurando é chamado de admissibilidade. Uma decisão é admissível se não houver uma maneira menos arriscada de calculá-la.

Todas as soluções bayesianas são admissíveis e as soluções não bayesianas são admissíveis na medida em que correspondam a uma solução bayesiana em cada amostra ou no limite. Uma solução freqüentista ou bayesiana admissível sempre vencerá uma solução ML, a menos que também seja admissível. Com isso dito, existem algumas observações práticas que tornam essa afirmação verdadeira, mas vazia.

Primeiro, o prior da opção bayesiana deve ser o seu real prioritário, e não uma distribuição anterior usada para fazer feliz um editor de uma revista. Segundo, muitas soluções freqüentistas são inadmissíveis e um estimador de retração deveria ter sido usado em vez da solução padrão. Muitas pessoas desconhecem o lema de Stein e suas implicações para erros fora da amostra. Finalmente, o ML pode ser um pouco mais robusto, em muitos casos, para erros de especificação incorreta.

Quando você se muda para as árvores de decisão e seus primos nas florestas, não está usando uma metodologia semelhante, a menos que esteja usando algo semelhante a uma rede Bayes. Uma solução gráfica contém uma quantidade substancial de informações implícitas, particularmente um gráfico direcionado. Sempre que você adiciona informações a um processo probabilístico ou estatístico, reduz a variabilidade do resultado e altera o que seria considerado admissível.

Se você observar o aprendizado de máquina a partir de uma perspectiva de composição de funções, ele se tornará uma solução estatística, mas usando aproximações para tornar a solução tratável. Para soluções bayesianas, o MCMC economiza quantidades inacreditáveis ​​de tempo, assim como a descida do gradiente para muitos problemas de ML. Se você tivesse que construir um posterior exato para integrar ou usar força bruta em muitos problemas de ML, o sistema solar morreria devido ao calor antes de obter uma resposta.

Meu palpite é que você tem um modelo mal especificado para quem usa estatísticas ou estatísticas inadequadas. Ensinei uma palestra em que provei que os recém-nascidos flutuariam pelas janelas, se não fossem apropriadamente enrolados, e onde um método bayesiano superou radicalmente um método frequentista em uma escolha multinomial que o método freqüentista quebrou mesmo, na expectativa, enquanto o método bayesiano dobrou o dinheiro dos participantes . Agora, abusei das estatísticas no primeiro e aproveitei a inadmissibilidade do estimador freqüentista no segundo, mas um usuário ingênuo de estatísticas poderia facilmente fazer o que eu fiz. Eu apenas os tornei extremos para tornar os exemplos óbvios, mas usei dados absolutamente reais.

Florestas aleatórias são estimadores consistentes e parecem se assemelhar a certos processos bayesianos. Devido à ligação aos estimadores de kernel, eles podem estar bastante próximos. Se houver uma diferença material no desempenho entre os tipos de solução, há algo no problema subjacente que você está entendendo mal e se o problema tiver alguma importância, será necessário procurar realmente a fonte da diferença, pois também pode ser a caso todos os modelos sejam mal especificados.

Dave Harris
fonte
1

Muito aprendizado de máquina pode não ser tão diferente do p-hacking, pelo menos para alguns propósitos.

Se você testar todos os modelos possíveis para descobrir aquele que possui a maior precisão de previsão (previsão histórica ou previsão de grupo externo) com base em dados históricos, isso não significa necessariamente que os resultados ajudarão a entender o que está acontecendo. No entanto, possivelmente encontrará possíveis relacionamentos que possam informar uma hipótese.

Motivar hipóteses específicas e testá-las usando métodos estatísticos certamente pode ser igualmente hackeado (ou similar).

Mas o ponto é que, se o critério for "maior precisão de previsão com base em dados históricos", há um alto risco de excesso de confiança em algum modelo que não se entende, sem realmente ter alguma idéia do que levou esses resultados históricos e / ou se eles podem ser informativos para o futuro.

nathanwww
fonte