Geração de recursos - Este é o processo de obter dados brutos e não estruturados e definir recursos (ou seja, variáveis) para uso potencial em sua análise estatística. Por exemplo, no caso da mineração de texto, você pode começar com um registro bruto de milhares de mensagens de texto (por exemplo, SMS, email, mensagens de redes sociais etc.) e gerar recursos removendo palavras de baixo valor (ou seja, palavras de parada), usando determinado tamanho blocos de palavras (n-gramas) ou aplicação de outras regras.
Extração de recursos - Depois de gerar recursos, geralmente é necessário testar transformações dos recursos originais e selecionar um subconjunto desse conjunto de recursos originais e derivados potenciais para uso em seu modelo (por exemplo, extração e seleção de recursos). Testar valores derivados é uma etapa comum porque os dados podem conter informações importantes que possuem um padrão ou relacionamento não linear com o resultado, portanto, a importância do elemento de dados pode ser aparente apenas em seu estado transformado (por exemplo, derivadas de ordem superior). O uso de muitos recursos pode resultar em multiplicar a colinearidade ou confundir modelos estatísticos, enquanto a extração do número mínimo de recursos para se adequar ao objetivo de sua análise segue o princípio da parcimônia.
O aprimoramento do espaço de recursos dessa maneira geralmente é uma etapa necessária na classificação de imagens ou outros objetos de dados, porque o espaço de recursos brutos normalmente é preenchido com uma quantidade impressionante de dados não estruturados e irrelevantes que compreendem o que geralmente é chamado de "ruído" no paradigma. de um "sinal" e "ruído" (ou seja, alguns dados têm valor preditivo e outros não). Ao aprimorar o espaço de recursos, você pode identificar melhor os dados importantes que possuem valor preditivo ou outro em sua análise (por exemplo, o "sinal") enquanto remove informações confusas (por exemplo, "ruído").