A extração e a seleção de recursos reduzem essencialmente a dimensionalidade dos dados, mas a extração de recursos também torna os dados mais separáveis, se eu estiver certo.
Qual técnica seria preferida à outra e quando?
Eu estava pensando, como a seleção de recursos não modifica os dados originais e suas propriedades, presumo que você usará a seleção de recursos quando for importante que os recursos em que você está treinando sejam inalterados. Mas não consigo imaginar por que você iria querer algo assim ..
Como Aditya disse, existem três termos relacionados a recursos que às vezes são confundidos. Vou tentar e dar uma explicação resumida para cada um deles:
Se a única coisa que você deseja alcançar é a redução da dimensionalidade em um conjunto de dados existente, você pode usar os métodos de transformação ou seleção de recursos. Mas se você precisa conhecer a interpretação física dos recursos que identifica como "importante" ou está tentando limitar a quantidade de dados que precisam ser coletados para sua análise (você precisa de todo o conjunto inicial de recursos para a transformação de recursos), somente a seleção de recursos pode funcionar.
Você pode encontrar mais detalhes sobre Seleção de recursos e Redução de dimensionalidade nos seguintes links:
Um resumo dos métodos de redução de dimensão
Classificação e Seleção de Recursos: Uma Revisão
Perguntas e respostas relevantes no Stack Overflow
fonte
Eu acho que são duas coisas diferentes,
Vamos começar com a seleção de recursos :
Essa técnica é usada para selecionar os recursos que explicam o máximo da variável de destino (tem uma correlação com a variável de destino). Esse teste é executado imediatamente antes de o modelo ser aplicado aos dados.
Para explicar melhor, vamos dar um exemplo: há 10 variáveis de recurso e 1 variável de destino, 9 recursos explicam 90% da variável de destino e 10 recursos juntos explicam 91% da variável de destino. Portanto, a variável 1 não está fazendo muita diferença; portanto, você tende a removê-la antes da modelagem (também é subjetiva para os negócios). Também posso ser chamado como Importância do Preditor.
Agora vamos falar sobre extração de recursos ,
Que é usado no aprendizado não supervisionado, extração de contornos em imagens, extração de dois gramas de um texto, extração de fonemas da gravação de texto falado. Quando você não sabe nada sobre os dados, como nenhum dicionário de dados, há muitos recursos, o que significa que os dados não estão em um formato compreensível. Em seguida, tente aplicar esta técnica para obter alguns recursos que explicam a maioria dos dados. A extração de recursos envolve uma transformação dos recursos, o que geralmente não é reversível porque algumas informações são perdidas no processo de redução de dimensionalidade.
Você pode aplicar a Extração de Recurso nos dados fornecidos para extrair recursos e, em seguida, aplicar a Seleção de Recurso em relação à Variável de Destino para selecionar o subconjunto que pode ajudar na criação de um bom modelo com bons resultados.
você pode passar por esses Link-1 , Link-2 para entender melhor.
podemos implementá-los em R, Python, SPSS.
informe-me se precisar de mais esclarecimentos.
fonte
Os dois são muito diferentes: a seleção de recursos reduz de fato as dimensões, mas a extração de recursos adiciona dimensões calculadas a partir de outros recursos.
Para dados de painel ou séries temporais, geralmente se tem a variável datetime e não se deseja treinar a variável dependente na própria data, pois essas não ocorrerão no futuro. Portanto, você deve eliminar a data e hora: eliminação de recursos.
Por outro lado, o dia da semana / dia do fim de semana pode ser muito relevante, portanto, precisamos calcular o status do dia da semana a partir da data e hora: extração de recursos.
fonte
Citação: "Aprendizado prático com o SciKit-Learn, Keras e Tensorflow - Aurelien Geron"
fonte