Lista de técnicas de engenharia de recursos

Respostas:

10

Não há uma fonte definida sobre como executar a engenharia de recursos. Geralmente depende do problema que você está tentando resolver. Alguns dizem que é mais uma arte do que ciência.

Mas eu analisaria algumas das soluções kaggle kernels / vencedoras de alta pontuação, se disponíveis. Basta ir até o kaggle e navegar pelas competições. Há muito material muito útil lá.

Além disso, o diário de pesquisa em aprendizado de máquina tem vários artigos sobre engenharia de recursos. Basta pesquisar no site http://www.jmlr.org/ .

Os links a seguir são úteis e muito longos para parafrasear:

  • Algumas informações sobre algumas práticas recomendadas de engenharia de recursos podem ser encontradas no Quora, consulte este link
  • No domínio do aprendizado de máquina, há esta página sobre engenharia de recursos.
phiver
fonte
3

Imputação de dados ausentes:

  1. Análise completa de casos

  2. Imputação da média / mediana / modo

  3. Imputação de amostra aleatória

  4. Substituição por valor arbitrário

  5. Indicador de valor ausente

  6. Imputação multivariada

Codificação categórica:

  1. Uma codificação quente

  2. Codificação de contagem e frequência

  3. Codificação de destino / Codificação média

  4. Codificação ordinal

  5. Peso da evidência

  6. Codificação rara de etiquetas

  7. BaseN, hash de recursos e outros

Transformação variável:

  1. Logaritmo

  2. Recíproca

  3. Raiz quadrada

  4. Exponencial

  5. Yeo-Johnson

  6. Box-Cox

Discretização:

  1. Discretização de igual frequência

  2. Discretização de igual comprimento

  3. Discretização com árvores

  4. Discretização com ChiMerge

Remoção de Outlier:

  1. Remoção de outliers

  2. Tratar valores extremos como NaN

  3. Capping, Windsorisation

Escala de recursos:

  1. Estandardização

  2. MinMax Scaling

  3. Escala Média

  4. Escala máxima absoluta

  5. Norma da unidade - Escalonamento

Engenharia de Data e Hora:

  1. Extraindo dias, meses, anos, trimestres, tempo decorrido

Criação de Recursos:

  1. Soma, subtração, média, mínimo, máximo, produto, quociente do grupo de recursos

Agregando dados de transação:

  1. Igual ao anterior, mas com o mesmo recurso ao longo do tempo

Extraindo recursos do texto:

  1. Saco de palavras

  2. tfidf

  3. n-gramas

  4. word2vec

  5. extração de tópicos

E, finalmente, extrair recursos de imagens.

Um bom artigo que descreve a maioria das técnicas acima: Engenharia de recursos, uma visão abrangente

Uma boa lista de recursos para aprender mais sobre engenharia de recursos: Melhores recursos para aprender sobre engenharia de recursos

Ferramentas Python para engenharia de recursos podem ser encontradas neste tópico

AVISO LEGAL: Eu escrevi os 2 artigos e também sou o criador de 1 dos cursos recomendados para aprender sobre engenharia de recursos.

Sola G
fonte