Tutoriais para engenharia de recursos

19

Como é sabido a todos, a engenharia de recursos é extremamente importante para o aprendizado de máquina, no entanto, encontrei poucos materiais associados a essa área. Participei de várias competições no Kaggle e acredito que bons recursos podem até ser mais importantes do que um bom classificador em alguns casos. Alguém conhece algum tutorial sobre engenharia de recursos ou é uma experiência pura?

FindBoat
fonte
1
Você quer dizer pré-processamento de recursos (normalização e outras transformações) ou seleção de recursos?
MattBagg
2
@ mb3041023 Não, a etapa anterior a ambas, na qual você converte alguns dados brutos, como textos, imagens ou séries, em alguns atributos utilizáveis.
8
Na minha experiência, uma grande parte do problema do aprendizado de máquina está literalmente configurando o problema correto a ser resolvido / otimizado (ou seja, recursos, representação de recursos, seleção etc.). Adoraria ver um livro exclusivamente dedicado à seleção empírica de recursos e ao pré-processamento, com muitas ilustrações da vida real (como o kaggle). Se alguém souber de um, pls. postar. Existem vários livros dedicados a coisas como limpeza de dados / imputação de dados, mas um texto prático dedicado sobre a seleção de recursos é extremamente necessário.
pat
2
Dê uma olhada em: "Extração de recursos: fundamentos e aplicações", 2006
jasonb 4/13/13
2
@jasonb, que tal autor, tamanho, preço e link, algo como isto: Guyon ed., Extração de recursos: Fundamentos e aplicações 2006, 778p, $ 306
denis

Respostas:

7

Eu diria experiência - as idéias básicas são:

  • ajustar como os classificadores funcionam; dar um problema de geometria a uma árvore, dimensão superdimensionada a um kNN e dados de intervalo a um SVM não são boas idéias
  • remova o máximo de não linearidades possível; esperar que algum classificador faça a análise de Fourier por dentro é bastante ingênuo (mesmo que desperdice muita complexidade)
  • torne os recursos genéricos para todos os objetos, para que algumas amostras na cadeia não os derrubem
  • verificar trabalhos anteriores - geralmente a transformação usada para visualização ou teste de tipos semelhantes de dados já está ajustada para descobrir aspectos interessantes
  • evitar transformações instáveis ​​e otimizadas, como o PCA, que podem levar ao excesso de ajustes
  • experimente muito

fonte
Como você define "dados do intervalo"? Eu pesquisei no Google e encontrei muitas definições diferentes.
poder
você pode elaborar sobre o ponto PCA?
22412 Daniel Velkov
x|x-prime mais próximo|<0,3
@DanielVelkov Quando você inicializa o PCA com dados bastante barulhentos, os componentes geralmente são instáveis; isso promove a idéia de disponibilizar um PCA global em todo o conjunto, o que vaza informações e é uma maneira direta de prejudicar a avaliação.
@mbq e se o PCA for executado apenas no conjunto de treinamento, do jeito que deveria ser?
Daniel Velkov
1

Existe um livro de O'Reilly chamado " Feature Engineering for Machine Learning " de Zheng et al.

Eu li o livro e ele cobre diferentes tipos de dados (por exemplo, categóricos, texto ...) e descreve diferentes aspectos da engenharia de recursos que o acompanham. Isso inclui coisas como normalização de dados, seleção de recursos e tf-idf no texto.

NumSim
fonte