Pergunta muito interessante (+1). Embora eu não conheça nenhuma ferramenta de software que atualmente ofereça uma funcionalidade abrangente para a engenharia de recursos , há definitivamente uma ampla gama de opções nesse sentido. Atualmente, até onde eu sei, a engenharia de recursos ainda é amplamente um processo trabalhoso e manual (ou seja, consulte esta publicação no blog ). Falando sobre o domínio de assunto da engenharia de recursos, este excelente artigo de Jason Brownlee fornece uma visão geral bastante abrangente do tópico.
Ben Lorica, cientista-chefe de dados e diretor de estratégia de conteúdo para dados da O'Reilly Media Inc., escreveu um artigo muito bom , descrevendo as abordagens, métodos, ferramentas e startups de última geração (em junho de 2014) no área de automação (ou, como ele disse, simplificação ) de engenharia de recursos.
Dei uma breve olhada em algumas startups que Ben referenciou e um produto da Skytree realmente parece bastante impressionante, especialmente no que diz respeito ao assunto desta pergunta. Dito isto, algumas de suas reivindicações parecem realmente suspeitas para mim (ou seja, "Skytree acelera os métodos de aprendizado de máquina em até 150x em comparação com as opções de código aberto" ). Continuando falando sobre ciência comercial de dados e ofertas de aprendizado de máquina, devo mencionar soluções da Microsoft, em particular o Azure Machine Learning Studio . Este produto baseado na Web é bastante poderoso e elegante e oferece alguma funcionalidade de engenharia de recursos (FEF). Para um exemplo de um FEF simples, veja este belo vídeo .
Voltando à questão, acho que a abordagem mais simples que se pode aplicar para automatizar a engenharia de recursos é usar os IDEs correspondentes . Como você (eu também) está interessado na linguagem R como back-end de ciência de dados, sugiro verificar, além do RStudio, outro IDE de código aberto semelhante, chamado RKWard . Uma das vantagens do RKWard vs RStudio é que ele suporta a criação de plug-ins para o IDE, permitindo que os cientistas de dados automatizem a engenharia de recursos e simplifiquem sua análise de dados baseada em R.
Finalmente, do outro lado do espectro de soluções de engenharia de recursos, podemos encontrar alguns projetos de pesquisa . Os dois mais notáveis parecem ser o projeto Columbus da Universidade de Stanford , descrito em detalhes no trabalho de pesquisa correspondente , e Brainwash , descrito neste artigo .