Recentemente, eu estava trabalhando em um problema para fazer uma análise de custos de minhas despesas para algum recurso específico. Normalmente, tomo algumas decisões manuais a partir da análise e planejo adequadamente.
Eu tenho um grande conjunto de dados no formato excel e com centenas de colunas, definindo o uso do recurso em vários períodos e tipos de tempo (outros vários usos detalhados). Também tenho informações sobre os meus 4 anos anteriores de dados, uso real de recursos e custos incorridos de acordo.
Eu esperava treinar um NN para prever meu custo com antecedência e planejar antes mesmo de poder fazer a análise de custo manualmente.
Mas o maior problema que estou enfrentando é a necessidade de identificar os recursos para essa análise. Eu esperava que houvesse alguma maneira de identificar os recursos do conjunto de dados.
PS - Eu tenho uma idéia sobre o PCA e algumas outras técnicas de redução de conjuntos de recursos, o que estou procurando é a maneira de identificá-las em primeiro lugar.
fonte
Essa é uma ótima pergunta e provavelmente uma das tarefas mais difíceis no ML.
Você tem algumas opções:
espero que ajude
fonte
É aconselhável considerar não apenas a correlação do engajamento de recursos com o custo, mas também o retorno do custo do engajamento de recursos. O desafio típico é que esses retornos são quase sempre cumulativos ou atrasados. Um caso de acumulação é quando o recurso é o ajuste ou aprimoramento contínuo de um processo cuja ausência retarda a geração de receita. Um caso de atraso ocorre quando os recursos de pesquisa incorrem em custos sem impacto na receita por um período de tempo, mas a geração de receita que começa se a pesquisa fornece resultados produtivos pode ser um fator substancial acima do custo total dos resultados entregues.
A razão pela qual os dados de despesas por si só podem levar a um aprendizado inadequado da rede é porque uma rede treinada para reduzir, por exemplo, as despesas de marketing, irá zerá-las. Isso geralmente causaria uma tendência decrescente de lead de vendas até que os negócios se dobrassem. Sem incluir os retornos nas informações de treinamento, nenhum aprendizado útil pode ocorrer.
Um MLP básico (perceptron de múltiplas camadas) não aprenderá as características temporais dos dados, os aspectos de acumulação e atraso. Você precisará de uma rede com estado. O tipo de rede com sucesso mais consistente para esse tipo de aprendizado até o momento da redação deste documento é o tipo de rede LSTM (memória de curto prazo) ou uma de suas variantes derivadas. Os dados da receita e do saldo devem ser usados em conjunto com os dados da despesa para treinar a rede a prever resultados de negócios para qualquer sequência de engajamentos de recursos propostos (plano orçamentário totalmente detalhado).
A função de perda deve equilibrar adequadamente o termo de classificação com os objetivos financeiros de médio e longo prazo. O caixa disponível negativo deve produzir um aumento pronunciado na função de perda, para que se evite riscos básicos à reputação e o custo do crédito.
É difícil determinar antecipadamente quais colunas nos seus dados têm fortes correlações com o retorno do investimento. Você pode excluir imediatamente as colunas que estejam em conformidade com qualquer um dos seguintes critérios.
Os dados podem ser reduzidos de outras maneiras
Os RBMs (máquinas Boltzmann restritas) podem extrair recursos dos dados e os PCAs podem iluminar as colunas com baixo conteúdo de informações, mas o significado das colunas em termos de correlação com a receita não será identificado usando esses dispositivos em sua forma básica.
fonte