Edição final com todos os recursos atualizados:
Para um projeto, estou aplicando algoritmos de aprendizado de máquina para classificação.
Desafio: dados rotulados bastante limitados e muito mais dados não rotulados.
Metas:
- Aplicar classificação semi-supervisionada
- Aplique um processo de rotulagem semi-supervisionado (conhecido como aprendizado ativo)
Encontrei muitas informações de trabalhos de pesquisa, como a aplicação de EM, SVM transdutivo ou S3VM (Semi-supervisionado SVM) ou, de alguma forma, uso de LDA, etc.
Pergunta: Onde estão as implementações e fontes práticas?
Atualização final (com base nas ajudas fornecidas por mpiktas, bayer e Dikran Marsupial)
Aprendizagem semi-supervisionada:
- TSVM: em SVMligth e SVMlin .
- EM Naive Bayes em Python
- EM no projeto LinePipe
Aprendizado ativo:
- Dualista : uma implementação de aprendizado ativo com código fonte na classificação de texto
- Esta página da web oferece uma maravilhosa visão geral do aprendizado ativo.
- Um workshop experimental de Design: aqui .
Aprendizagem profunda:
- Vídeo introdutório aqui .
- Site geral .
- Tutorial de aprendizado de recursos não supervisionados e aprendizado profundo de Stanford .
Respostas:
Parece que o aprendizado profundo pode ser muito interessante para você. Este é um campo muito recente de modelos conexionistas profundos que são pré-treinados de maneira não supervisionada e posteriormente ajustados com supervisão. O ajuste fino requer muito menos amostras do que o pré-treinamento.
Para molhar a língua, recomendo [Semantig Hashing Salakhutdinov, Hinton . Veja os códigos encontrados para documentos distintos do corpus da Reuters: (sem supervisão!)
Se você precisar de algum código implementado, consulte deeplearning.net . Não acredito que existam soluções prontas para uso.
fonte
Isabelle Guyon (e colegas) organizou um desafio sobre a aprendizagem ativa há algum tempo, os procedimentos são publicados aqui (acesso aberto). Isso tem a vantagem de ser bastante prático e você pode comparar diretamente o desempenho de diferentes abordagens sob um protocolo imparcial (em sentido coloquial) (a seleção aleatória de padrões é surpreendentemente difícil de superar).
fonte
Aqui está uma boa lista de bibliotecas.
http://www.infoworld.com/article/2608742/predictive-analytics/5-ways-to-add-machine-learning-to-java--javascript--and-more.html
fonte