Eu implementei o sistema NER com o uso do algoritmo CRF com meus recursos artesanais que deram bons resultados. O fato é que eu usei muitos recursos diferentes, incluindo tags POS e lemas.
Agora eu quero fazer o mesmo NER para um idioma diferente. O problema aqui é que não posso usar tags e lemas de PDV. Comecei a ler artigos sobre aprendizado profundo e aprendizado não supervisionado de recursos.
Minha pergunta é:
É possível usar métodos para o aprendizado não supervisionado de recursos com o algoritmo CRF? Alguém tentou isso e obteve algum bom resultado? Existe algum artigo ou tutorial sobre esse assunto?
Ainda não entendo completamente esse modo de criação de recursos, por isso não quero gastar muito tempo com algo que não funcionará. Portanto, qualquer informação seria realmente útil. Criar um sistema NER completo com base em aprendizado profundo é um pouco demais por enquanto.
fonte
Neste artigo de 2014 ( GitHub ), os autores compararam várias estratégias de incorporação de incorporação de palavras em um sistema NER baseado em CRF, incluindo incorporação densa, incorporação binerizada, incorporação de cluster e um novo método de protótipo . Usar vetores densos diretamente, conforme sugerido por vlad, é a maneira mais direta, mas também a menos eficaz em várias avaliações.
Eu implementei a ideia do protótipo no meu projeto NER específico do domínio e funciona muito bem para mim.
fonte
Estou com apenas cinco meses de atraso, mas com o CRFSuite você pode realmente usar esses recursos flutuantes como números, não como seqüências de caracteres. Para isso, você só precisa inventar um rótulo exclusivo para cada dimensão e, em seguida, adicionar um ":" seguido pelo valor.
Por exemplo, uma palavra "selva" é representada em 5 dimensões: 0,1 0,4 0,8 0,2 0,2 0,9
O CRFSuite usaria essa palavra + recurso como:
ETIQUETA f1: 0.1 f2: 0.4 f3: 0.8 f4: 0.2 f5: 0.9
onde é claro que você substitui `` LABEL '' por uma string real e separa todos os espaços com guias (esse é o formato do CRFSuite).
Não tenho certeza, porém, de outros pacotes.
fonte