Extração de recursos de um gráfico de dispersão

7

Digamos que eu tenha um gráfico de dispersão como este:

insira a descrição da imagem aqui

Como tenho muitos gráficos de dispersão como esse, quero fazer a transformação de recursos, ou seja, squash (x,y)em um único termo para ser inserido em um NN. Qual transformação, como x/you (x/y)^2qualquer outra transformação, funcionará melhor nesse tipo de gráfico, ou seja, aumente mais a separação enquanto a esmaga para um único termo.

DuttaA
fonte

Respostas:

5

Como o @David Masip mencionou, a Análise de Componentes Principais seria um bom método para usar aqui. Essencialmente, o PCA é um método pelo qual um mapeamento é encontrado entre um espaço dimensional alto e um espaço dimensional menor, mantendo o máximo de variação possível nos dados - perfeito para a redução da dimensionalidade dos dados de alta dimensão.

No entanto, você menciona que deseja usar esses dados reduzidos para treinar um modelo de rede neural. Talvez seja melhor treinar primeiro o modelo da rede neural e ver como ele funciona, pois as redes neurais geralmente são muito boas para identificar interações entre recursos e outras estruturas ocultas nos dados. Se não funcionar bem, uma abordagem para melhorar o desempenho pode ser o uso do PCA - embora isso seja altamente dependente do seu caso de uso, conteúdo / tipo / quantidade de dados, arquitetura de rede neural etc.

O ps PCA também é bom para visualizar dados de alta dimensão (reduza a dimensionalidade para 2 ou 3 dimensões e plote-a. Isso é melhor do que plotar apenas 2 recursos por vez, como você fez acima).

PyRsquared
fonte
Bem, eu não quero usar de pca..It apenas a 2 dimensional data..So Pensei em alguns extração de características Manual
DuttaA
3

Eu acho que o que você está procurando é PCA (Principal Component Analysis). No seu caso, você deve pegar o primeiro componente principal. O PCA permite automatizar o processo de decidir quais são as combinações lineares das variáveis ​​que explicam a maioria dos dados. Na imagem que você mostrou, o primeiro componente será aproximadamente o eixo vertical do seu gráfico. Se você não sabe o que é PCA, consulte esta resposta magnífica em validação cruzada.

David Masip
fonte
3

Dê uma olhada na Análise Discriminante Linear . Este guia deve lhe dar uma idéia de por que é mais apropriado que o PCA para sua tarefa.

jukofyork
fonte
As respostas que possuem apenas links são desencorajadas ...
Aditya
2

Tomando seu comentário:

Bem, eu não quero usar o pca ... São apenas dados bidimensionais ... Então pensei em alguma extração manual de recursos

Algo realmente simples que você pode fazer é usarydiretamente. Parecey23 faz um bom trabalho separando os grupos vermelho e verde no gráfico de dispersão.

Pode-se generalizar essa abordagem para outros pares de variáveis (i,j)ajustando árvores de decisão com uma profundidade de 1, produzindo a melhor variável única dividida para separar os dois grupos para cada par. Essas regras podem ser usadas para selecionar uma única variável a ser usada,i ou jou uma variável / sinalização binária a ser criada, como o y23 sugestão acima.

Eduard Gelman
fonte