Aprendizagem semi-supervisionada, aprendizagem ativa e aprendizagem profunda para classificação

19

Edição final com todos os recursos atualizados:

Para um projeto, estou aplicando algoritmos de aprendizado de máquina para classificação.

Desafio: dados rotulados bastante limitados e muito mais dados não rotulados.

Metas:

  1. Aplicar classificação semi-supervisionada
  2. Aplique um processo de rotulagem semi-supervisionado (conhecido como aprendizado ativo)

Encontrei muitas informações de trabalhos de pesquisa, como a aplicação de EM, SVM transdutivo ou S3VM (Semi-supervisionado SVM) ou, de alguma forma, uso de LDA, etc.

Pergunta: Onde estão as implementações e fontes práticas?


Atualização final (com base nas ajudas fornecidas por mpiktas, bayer e Dikran Marsupial)

Aprendizagem semi-supervisionada:

Aprendizado ativo:

  • Dualista : uma implementação de aprendizado ativo com código fonte na classificação de texto
  • Esta página da web oferece uma maravilhosa visão geral do aprendizado ativo.
  • Um workshop experimental de Design: aqui .

Aprendizagem profunda:

  • Vídeo introdutório aqui .
  • Site geral .
  • Tutorial de aprendizado de recursos não supervisionados e aprendizado profundo de Stanford .
Floco
fonte
Há um pacote de R RTextTools . Se não me engano, ele implementa vários dos métodos mencionados.
Mvctas # 7/11
Oi mpiktas, obrigado por sua ajuda. É um kit de ferramentas interessante. No entanto, parece estar lidando apenas com o aprendizado supervisionado, enquanto eu leio "O TextTools é um pacote de aprendizado de máquina gratuito e de código aberto para classificação automática de texto, o que simplifica a introdução de aprendizado supervisionado por usuários iniciantes e avançados. O pacote inclui nove algoritmos para classificação de conjuntos (svm, slda, boosting, ensacamento, florestas aleatórias, glmnet, árvores de decisão, redes neurais, entropia máxima) "
Flake
Ok, aqui está outra tentativa: Weka . Os autores escreveram um livro e seu índice menciona aprendizado semi-supervisionado. Espero sinceramente que o capítulo não termine com "... infelizmente nenhum desses algoritmos foi implementado no Weka" :)
mpiktas
Drat, peguei a versão mais antiga do livro! Muito obrigado por apontar esta fonte!
Flake

Respostas:

8

Parece que o aprendizado profundo pode ser muito interessante para você. Este é um campo muito recente de modelos conexionistas profundos que são pré-treinados de maneira não supervisionada e posteriormente ajustados com supervisão. O ajuste fino requer muito menos amostras do que o pré-treinamento.

Para molhar a língua, recomendo [Semantig Hashing Salakhutdinov, Hinton . Veja os códigos encontrados para documentos distintos do corpus da Reuters: (sem supervisão!)

insira a descrição da imagem aqui

Se você precisar de algum código implementado, consulte deeplearning.net . Não acredito que existam soluções prontas para uso.

bayerj
fonte
Esta é uma informação bastante interessante e nova para mim. É claro que implementações prontas para uso seriam melhores, mas isso realmente me ajuda a saber algo mais próximo do que eu quero. Obrigado.
Flake
5

Isabelle Guyon (e colegas) organizou um desafio sobre a aprendizagem ativa há algum tempo, os procedimentos são publicados aqui (acesso aberto). Isso tem a vantagem de ser bastante prático e você pode comparar diretamente o desempenho de diferentes abordagens sob um protocolo imparcial (em sentido coloquial) (a seleção aleatória de padrões é surpreendentemente difícil de superar).

Dikran Marsupial
fonte