Use liblinear em big data para análise semântica

17

Eu uso o Libsvm para treinar dados e prever classificação no problema de análise semântica . Mas há um problema de desempenho em dados de larga escala, porque a análise semântica diz respeito ao problema da n-dimensão .

No ano passado, o Liblinear foi lançado e pode resolver gargalos de desempenho. Mas custou muita memória . O MapReduce é a única maneira de resolver problemas de análise semântica em big data? Ou existem outros métodos que podem melhorar o gargalo de memória no Liblinear ?

Puffin GDI
fonte

Respostas:

11

Observe que há uma versão anterior do LIBLINEAR portada para o Apache Spark . Veja os comentários da lista de discussão para obter alguns detalhes iniciais e o site do projeto .

Sean Owen
fonte
Obrigado pela sua resposta. Parece diferente do SVM. Eu vou pesquisar. :)
Puffin GDI
4
Apenas um lembrete de que não incentivamos a vinculação externa a uma resposta, pois é fácil a quebra dos links, fazendo com que um recurso útil da comunidade se torne um beco sem saída. É sempre melhor colocar a resposta diretamente em sua postagem.
Ana
1
Concordo com aquilo. Nesse ponto, ele quase não existe mais do que esse link. Vou adicionar um link para o projeto subjacente.
Sean Owen
10

Você pode conferir o vowpal wabbit . É bastante popular para aprendizado em larga escala e inclui disposições paralelas.

No site deles:

A VW é a essência da velocidade no aprendizado de máquina, capaz de aprender com conjuntos de dados de terafeature com facilidade. Através do aprendizado paralelo, ele pode exceder a taxa de transferência de qualquer interface de rede de uma única máquina ao realizar um aprendizado linear, o primeiro entre os algoritmos de aprendizado.

Marc Claesen
fonte
1
Código aberto e algum wiki. Isso parece bom. Obrigado por sua sugestão. :)
Puffin GDI