Esta pode ser uma pergunta idiota. Sou um graduado recente da faculdade que trabalha na área de modelagem preditiva e descobre que há uma forte ênfase na realização de engenharia de recursos. No entanto, na maior parte do meu treinamento acadêmico em estatística, quase não houve menção à engenharia de recursos e similares (além de argumentos contra preditores de discretização / exclusão) com o objetivo de construir modelos inferenciais. Fiquei me perguntando por que a engenharia de recursos desempenha um papel maior ao fazer modelagem preditiva em vez de desenvolver modelos para inferência estatística. Então ... qual é o papel da engenharia de recursos na inferência estatística? (em oposição ao papel da engenharia de recursos na modelagem preditiva)
Com base no comentário recente:
Por inferência estatística, refiro-me a qualquer análise em que o objetivo principal seja avaliar a relação entre um preditor e uma variável de resposta.
Por modelagem preditiva, quero dizer qualquer análise em que o objetivo principal seja estimar Y ou prever valores futuros. (inclui todas as técnicas de ML)
fonte
Respostas:
Vou tentar ilustrar a razão da engenharia de recursos em geral, dizer que gostaria de analisar imagens.
Quando projetamos recursos, devemos ter em mente que eles são uma representação dos dados / imagem originais. Agora, se eu souber que tipo de informação importa para a tarefa que preciso executar, preciso dos recursos para refletir isso.
Por exemplo, se eu gostaria de conhecer o conteúdo de uma imagem e escolher como recurso o número de pixels na imagem, obviamente não funcionará. Agora, se eu optar por usar a intensidade média dos pixels entre os patches, poderei diferenciar entre uma imagem azul e uma imagem branca. Mas talvez eu queira saber se um objeto está presente na imagem e esse recurso será inútil. Portanto, posso considerar os gradientes de intensidade entre os pixels e observar suas variações (mas não poderei dizer se minha imagem é azul ou branca!).
Não há recurso ideal, apenas os recursos projetados para uma tarefa específica e essa tarefa é conhecida apenas pela pessoa que cria o framework inteiro: você! É por isso que a engenharia de recursos é importante. No entanto, a pesquisa sobre o tema do design de recursos é enorme e, para a maioria das tarefas com as quais você está trabalhando, alguém já projetou recursos que comprovadamente funcionam muito bem e você pode apenas usá-los como estão (ou alterá-los um pouco, se necessário).
Os recursos mais eficientes são baseados em teorias de vários campos matemáticos e seu alcance de aplicação é de alguma forma restrito. Por outro lado, os classificadores costumam ter uma ampla gama de aplicações e é por isso que acho que a ênfase costuma estar neles enquanto estudamos na academia.
fonte
Como este artigo da Wiki deixa claro ( https://en.wikipedia.org/wiki/Feature_engineering ), a engenharia de recursos é uma etapa fundamental no aprendizado de máquina, envolvendo a geração e o cultivo de um conjunto de recursos ou atributos que podem ser empiricamente (não necessariamente teoricamente) útil na previsão ou classificação de um alvo. Andrew Ng (e outros) adquirem grande conhecimento de domínio especializado no desenvolvimento de um conjunto de recursos, mas dada a multiplicidade de transformações que podem ser aplicadas aos dados para melhorar o ajuste do modelo, o grande número de recursos comumente analisados e o " Na caixa preta "de muitos dos algoritmos empregados, o conhecimento do domínio dificilmente parece uma prioridade.
Para mim, é sempre útil salientar que inferência versus previsão e classificação podem ser vistas como domínios separados, o primeiro pertencendo à estatística e o último o foco do aprendizado de máquina. Obviamente, há muita sobreposição nessa terminologia e nesses campos, ou seja, eles não são de modo algum mutuamente exclusivos. De um modo geral, a inferência estatística envolve especialista, conhecimento de domínio, especificação cuidadosa de uma hipótese, um conjunto finito (pequeno) de atributos ou recursos, juntamente com um projeto experimental para testar a hipótese - investigação científica clássica com o objetivo de gerar insight e entendimento em relação à verdade básica. A previsão e classificação do BC, por outro lado, podem ou não ser orientadas por hipóteses, podem ou não ter insight descritivo como objetivo e podem ou não ter a verdade fundamentada como referência.
fonte
Em termos gerais, a engenharia de recursos faz pelo menos duas coisas.
Primeiro, você pode limpar, reestruturar ou transformar seus recursos de forma que as informações úteis sejam aprimoradas e as informações redundantes ou de ruído sejam minimizadas. Talvez você saiba que uma categoria de pessoas / produtos / widgets é totalmente irrelevante e os remova.
Segundo, você pode criar novos recursos com base no conhecimento do domínio em seu campo específico. Nesse caso, você realmente adiciona novas informações que não estavam lá anteriormente. No meu próprio trabalho, foram esses recursos de engenharia que oferecem mais utilidade.
Isso provavelmente é difícil de ensinar, mas é lamentável que seu programa tenha ignorado essa etapa muito importante.
fonte