Como seleciono os recursos relevantes dos dados?

11

Recentemente, eu estava trabalhando em um problema para fazer uma análise de custos de minhas despesas para algum recurso específico. Normalmente, tomo algumas decisões manuais a partir da análise e planejo adequadamente.

Eu tenho um grande conjunto de dados no formato excel e com centenas de colunas, definindo o uso do recurso em vários períodos e tipos de tempo (outros vários usos detalhados). Também tenho informações sobre os meus 4 anos anteriores de dados, uso real de recursos e custos incorridos de acordo.

Eu esperava treinar um NN para prever meu custo com antecedência e planejar antes mesmo de poder fazer a análise de custo manualmente.

Mas o maior problema que estou enfrentando é a necessidade de identificar os recursos para essa análise. Eu esperava que houvesse alguma maneira de identificar os recursos do conjunto de dados.

PS - Eu tenho uma idéia sobre o PCA e algumas outras técnicas de redução de conjuntos de recursos, o que estou procurando é a maneira de identificá-las em primeiro lugar.

Karan Chopra
fonte

Respostas:

1

Como você tem todos os seus dados em uma tabela, uma coisa relativamente simples a fazer é considerar cada coluna de forma independente e verificar se a variável de saída (custo incorrido) tem uma correlação com isso.

Se a coluna não tiver (ou muito baixa correlação) com a variável de saída, considere que isso não é importante. Os que fazem o corte são considerados ainda mais.

Obviamente, isso não é muito diferente de como um algoritmo de árvore de decisão funcionaria (como o ID3).

Amrinder Arora
fonte
0

Como não há regras rígidas e rápidas para a seleção de recursos, você deve examinar manualmente o conjunto de dados e tentar técnicas diferentes para a engenharia de recursos. E não há regra de que você aplique redes neurais para isso, as redes neurais são demoradas para serem treinadas. Em vez disso, você pode experimentar métodos baseados em árvore de decisão (florestas aleatórias), pois seus dados estão em uma estrutura tabular.

riemann77
fonte
obrigado pela contribuição, 1. Concordo que o NN não é a melhor maneira de testar a hipótese, mas acho que usando o NN podemos obter relações mais vastas entre os recursos, para obter melhores resultados (na maioria dos casos). 2. O problema que eu estava enfrentando era selecionar os recursos, que realmente definiriam o padrão para o meu problema, e também como definir pesos dos recursos.
precisa saber é o seguinte
0

Essa é uma ótima pergunta e provavelmente uma das tarefas mais difíceis no ML.

Você tem algumas opções:

  1. Você pode usar algoritmos de ponderação (por exemplo, qui-quadrado) para entender quais recursos estão contribuindo mais para sua saída
  2. Você pode usar outros algoritmos de ML para classificar se um recurso está contribuindo para suas previsões ou não
  3. Você pode usar outros algoritmos de ML (que não sejam NN) que, inerentemente, fornecem pesos de recursos (por exemplo, Floresta aleatória)

espero que ajude

Ragy Ibrahim
fonte
0

É aconselhável considerar não apenas a correlação do engajamento de recursos com o custo, mas também o retorno do custo do engajamento de recursos. O desafio típico é que esses retornos são quase sempre cumulativos ou atrasados. Um caso de acumulação é quando o recurso é o ajuste ou aprimoramento contínuo de um processo cuja ausência retarda a geração de receita. Um caso de atraso ocorre quando os recursos de pesquisa incorrem em custos sem impacto na receita por um período de tempo, mas a geração de receita que começa se a pesquisa fornece resultados produtivos pode ser um fator substancial acima do custo total dos resultados entregues.

A razão pela qual os dados de despesas por si só podem levar a um aprendizado inadequado da rede é porque uma rede treinada para reduzir, por exemplo, as despesas de marketing, irá zerá-las. Isso geralmente causaria uma tendência decrescente de lead de vendas até que os negócios se dobrassem. Sem incluir os retornos nas informações de treinamento, nenhum aprendizado útil pode ocorrer.

Um MLP básico (perceptron de múltiplas camadas) não aprenderá as características temporais dos dados, os aspectos de acumulação e atraso. Você precisará de uma rede com estado. O tipo de rede com sucesso mais consistente para esse tipo de aprendizado até o momento da redação deste documento é o tipo de rede LSTM (memória de curto prazo) ou uma de suas variantes derivadas. Os dados da receita e do saldo devem ser usados ​​em conjunto com os dados da despesa para treinar a rede a prever resultados de negócios para qualquer sequência de engajamentos de recursos propostos (plano orçamentário totalmente detalhado).

A função de perda deve equilibrar adequadamente o termo de classificação com os objetivos financeiros de médio e longo prazo. O caixa disponível negativo deve produzir um aumento pronunciado na função de perda, para que se evite riscos básicos à reputação e o custo do crédito.

É difícil determinar antecipadamente quais colunas nos seus dados têm fortes correlações com o retorno do investimento. Você pode excluir imediatamente as colunas que estejam em conformidade com qualquer um dos seguintes critérios.

  • Sempre vazio
  • Outras constantes, aquelas que têm o mesmo valor para cada linha
  • Aqueles que sempre podem ser derivados de outras colunas

Os dados podem ser reduzidos de outras maneiras

  • Descrição completa dos dados, caracterizando tendências de maneiras simples
  • Usando índices para especificar cadeias longas com 100% de precisão, atribuindo um número a cada cadeia
  • Compressão
  • Caso contrário, reduzir a redundância nos dados

Os RBMs (máquinas Boltzmann restritas) podem extrair recursos dos dados e os PCAs podem iluminar as colunas com baixo conteúdo de informações, mas o significado das colunas em termos de correlação com a receita não será identificado usando esses dispositivos em sua forma básica.

Douglas Daseeco
fonte