Eu tenho uma lista de palavras, pertencentes a diferentes categorias auto-definidas. Cada categoria tem seu próprio padrão (por exemplo, um possui um comprimento fixo com caracteres especiais, outro existe de caracteres que ocorrem apenas nessa categoria de "palavra", ...).
Por exemplo:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...
Estou procurando uma técnica de aprendizado de máquina para aprender esses padrões por conta própria, com base em dados de treinamento. Eu já tentei definir algumas variáveis preditoras (por exemplo, comprimento da palavra, número de caracteres especiais, ...) por conta própria e, em seguida, usei uma Rede Neural para aprender e prever a categoria. Mas isso não é exatamente o que eu quero. Eu quero uma técnica para aprender o padrão de cada categoria por conta própria - mesmo para aprender padrões nos quais nunca pensei.
Então, eu forneço os dados de aprendizado do algoritmo (consistindo nos exemplos de categoria de palavra) e quero que ele aprenda padrões para cada categoria para prever mais tarde a categoria a partir de palavras semelhantes ou iguais.
Existe uma maneira avançada de fazer isso?
Obrigado pela ajuda
Respostas:
Seu problema pode ser reafirmado como se quisesse descobrir as expressões regulares que corresponderão às seqüências de caracteres em cada categoria? Este é um problema de "geração de expressões regulares", um subconjunto do problema de indução gramatical (consulte também o site de Alexander Clark ).
O problema da expressão regular é mais fácil. Eu posso apontar o código frak e o RegexGenerator . O RegexGenerator ++ online tem referências aos seus trabalhos acadêmicos sobre o problema.
fonte
Você pode tentar redes neurais recorrentes, em que sua entrada é uma sequência de letras da palavra e sua saída é uma categoria. Isso se ajusta ao seu requisito, de forma que você não codifique manualmente nenhum recurso.
No entanto, para que esse método funcione, você precisará de um conjunto de dados de treinamento bastante grande.
Você pode consultar a etiquetagem de sequência supervisionada com redes neurais recorrentes de Alex Graves, capítulo 2, para obter mais detalhes.
Este é um link para a pré - impressão
fonte