Atualmente, estou seguindo um programa de mestrado focado em estatística / econometria. No meu mestrado, todos os alunos tiveram que fazer 3 meses de pesquisa. Na semana passada, todos os grupos tiveram que apresentar suas pesquisas para o restante dos estudantes de mestrado.
Quase todos os grupos fizeram modelagem estatística e modelagem de aprendizado de máquina para seus tópicos de pesquisa e sempre que previsões fora da amostra vieram falar, os modelos simples de aprendizado de máquina venceram os modelos estatísticos muito sofisticados nos quais todos trabalharam muito nos últimos 3 meses. Não importa o quão bons sejam os modelos estatísticos de todos, uma floresta aleatória simples tem sempre menos erros fora da amostra.
Eu queria saber se esta é uma observação geralmente aceita? Que, se se trata de previsões fora da amostra, simplesmente não há como vencer uma floresta aleatória simples ou um modelo de aumento de gradiente extremo? Esses dois métodos são super simples de implementar usando pacotes R, enquanto todos os modelos estatísticos criados por todos exigem muita habilidade, conhecimento e esforço para estimar.
Quais são seus pensamentos sobre isso? É o único benefício dos modelos estatísticos / econométricos que você obtém interpretação? Ou nossos modelos não foram bons o suficiente para não terem superado significativamente as previsões simples de florestas aleatórias? Existem documentos que abordam esse problema?
Respostas:
A modelagem estatística é diferente do aprendizado de máquina. Por exemplo, uma regressão linear é um modelo estatístico e um modelo de aprendizado de máquina. Portanto, se você comparar uma regressão linear a uma floresta aleatória, estará apenas comparando um modelo mais simples de aprendizado de máquina com um modelo mais complicado. Você não está comparando um modelo estatístico a um modelo de aprendizado de máquina.
A modelagem estatística fornece mais do que interpretação; na verdade, fornece um modelo de algum parâmetro populacional. Depende de uma grande estrutura de matemática e teoria, que permite fórmulas para coisas como a variação de coeficientes, variação de previsões e teste de hipóteses. O rendimento potencial da modelagem estatística é muito maior que o aprendizado de máquina, porque você pode fazer fortes declarações sobre os parâmetros da população em vez de apenas medir o erro na validação, mas é consideravelmente mais difícil abordar um problema com um modelo estatístico.
fonte
É errado afirmar a pergunta da maneira que você a formulou. Por exemplo, uma parte significativa do aprendizado de máquina pode ser chamada de aprendizado estatístico . Portanto, sua comparação é como maçãs versus tortas de frutas.
No entanto, seguirei o modo como você o estruturou e afirmo o seguinte: quando se trata de previsão, nada pode ser feito sem alguma forma de estatística, porque a previsão possui inerentemente aleatoriedade (incerteza). Considere o seguinte: apesar do enorme sucesso do aprendizado de máquina em algumas aplicações, ele não tem absolutamente nada para mostrar na previsão de preço dos ativos. Nada mesmo. Por quê? Porque na maioria dos mercados líquidos desenvolvidos, os preços dos ativos são inerentemente estocásticos.
Você pode executar o aprendizado de máquina o dia inteiro para observar e aprender sobre o decaimento radioativo de átomos, e ele nunca será capaz de prever o tempo de decaimento do próximo átomo, simplesmente por ser aleatório.
Como aspirante a estatístico, seria tolice do seu lado não dominar o aprendizado de máquina, porque é uma das aplicações mais quentes da estatística, a menos que, é claro, você saiba com certeza que está indo para a academia. Qualquer pessoa que provavelmente trabalhe no setor precisa dominar o ML. Não há animosidade ou competição entre estatísticas e multidões de ML. De fato, se você gosta de programar, vai se sentir em casa no campo ML
fonte
Geralmente não, mas potencialmente sim com erros de especificação. O problema que você está procurando é chamado de admissibilidade. Uma decisão é admissível se não houver uma maneira menos arriscada de calculá-la.
Todas as soluções bayesianas são admissíveis e as soluções não bayesianas são admissíveis na medida em que correspondam a uma solução bayesiana em cada amostra ou no limite. Uma solução freqüentista ou bayesiana admissível sempre vencerá uma solução ML, a menos que também seja admissível. Com isso dito, existem algumas observações práticas que tornam essa afirmação verdadeira, mas vazia.
Primeiro, o prior da opção bayesiana deve ser o seu real prioritário, e não uma distribuição anterior usada para fazer feliz um editor de uma revista. Segundo, muitas soluções freqüentistas são inadmissíveis e um estimador de retração deveria ter sido usado em vez da solução padrão. Muitas pessoas desconhecem o lema de Stein e suas implicações para erros fora da amostra. Finalmente, o ML pode ser um pouco mais robusto, em muitos casos, para erros de especificação incorreta.
Quando você se muda para as árvores de decisão e seus primos nas florestas, não está usando uma metodologia semelhante, a menos que esteja usando algo semelhante a uma rede Bayes. Uma solução gráfica contém uma quantidade substancial de informações implícitas, particularmente um gráfico direcionado. Sempre que você adiciona informações a um processo probabilístico ou estatístico, reduz a variabilidade do resultado e altera o que seria considerado admissível.
Se você observar o aprendizado de máquina a partir de uma perspectiva de composição de funções, ele se tornará uma solução estatística, mas usando aproximações para tornar a solução tratável. Para soluções bayesianas, o MCMC economiza quantidades inacreditáveis de tempo, assim como a descida do gradiente para muitos problemas de ML. Se você tivesse que construir um posterior exato para integrar ou usar força bruta em muitos problemas de ML, o sistema solar morreria devido ao calor antes de obter uma resposta.
Meu palpite é que você tem um modelo mal especificado para quem usa estatísticas ou estatísticas inadequadas. Ensinei uma palestra em que provei que os recém-nascidos flutuariam pelas janelas, se não fossem apropriadamente enrolados, e onde um método bayesiano superou radicalmente um método frequentista em uma escolha multinomial que o método freqüentista quebrou mesmo, na expectativa, enquanto o método bayesiano dobrou o dinheiro dos participantes . Agora, abusei das estatísticas no primeiro e aproveitei a inadmissibilidade do estimador freqüentista no segundo, mas um usuário ingênuo de estatísticas poderia facilmente fazer o que eu fiz. Eu apenas os tornei extremos para tornar os exemplos óbvios, mas usei dados absolutamente reais.
Florestas aleatórias são estimadores consistentes e parecem se assemelhar a certos processos bayesianos. Devido à ligação aos estimadores de kernel, eles podem estar bastante próximos. Se houver uma diferença material no desempenho entre os tipos de solução, há algo no problema subjacente que você está entendendo mal e se o problema tiver alguma importância, será necessário procurar realmente a fonte da diferença, pois também pode ser a caso todos os modelos sejam mal especificados.
fonte
Muito aprendizado de máquina pode não ser tão diferente do p-hacking, pelo menos para alguns propósitos.
Se você testar todos os modelos possíveis para descobrir aquele que possui a maior precisão de previsão (previsão histórica ou previsão de grupo externo) com base em dados históricos, isso não significa necessariamente que os resultados ajudarão a entender o que está acontecendo. No entanto, possivelmente encontrará possíveis relacionamentos que possam informar uma hipótese.
Motivar hipóteses específicas e testá-las usando métodos estatísticos certamente pode ser igualmente hackeado (ou similar).
Mas o ponto é que, se o critério for "maior precisão de previsão com base em dados históricos", há um alto risco de excesso de confiança em algum modelo que não se entende, sem realmente ter alguma idéia do que levou esses resultados históricos e / ou se eles podem ser informativos para o futuro.
fonte