Ultimamente, tenho trabalhado com grandes conjuntos de dados e encontrei muitos documentos sobre métodos de streaming. Para nomear alguns:
- Líder seguidor-regularizado e descida espelhada: teoremas de equivalência e regularização L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Aprendizado em fluxo contínuo: SVMs de uma passagem ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal estimado sub-GrAdient SOlver para SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- ou aqui: O SVM pode transmitir um aprendizado de exemplo por vez?
- Streaming de florestas aleatórias ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
No entanto, não consegui encontrar nenhuma documentação sobre como eles se comparam. Todos os artigos que li parecem executar experimentos em diferentes conjuntos de dados.
Eu sei sobre sofia-ml, vowpal wabbit, mas eles parecem implementar muito poucos métodos, em comparação com a enorme quantidade de métodos existentes!
Os algoritmos menos comuns não têm desempenho suficiente? Existe algum artigo tentando revisar o maior número possível de métodos?
machine-learning
references
large-data
online
RUser4512
fonte
fonte
Respostas:
Uma pesquisa rigorosa de vários algoritmos semelhantes ao artigo de Delgado que você vinculou não está disponível, até onde eu saiba, mas houve esforços para reunir resultados para famílias de algoritmos.
Aqui estão algumas fontes que eu acho úteis (aviso: eu publico na área, por isso é provável que eu seja parcial na minha seleção):
Alguns pacotes de software:
Posso adicionar mais informações e fontes, se necessário. Como outros já disseram, o campo poderia usar uma pesquisa abrangente.
fonte