Aprendizado de streaming de última geração

Ultimamente, tenho trabalhado com grandes conjuntos de dados e encontrei muitos documentos sobre métodos de streaming. Para nomear alguns:

Líder seguidor-regularizado e descida espelhada: teoremas de equivalência e regularização L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
Aprendizado em fluxo contínuo: SVMs de uma passagem ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
Pegasos: Primal estimado sub-GrAdient SOlver para SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
ou aqui: O SVM pode transmitir um aprendizado de exemplo por vez?
Streaming de florestas aleatórias ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )

No entanto, não consegui encontrar nenhuma documentação sobre como eles se comparam. Todos os artigos que li parecem executar experimentos em diferentes conjuntos de dados.

Eu sei sobre sofia-ml, vowpal wabbit, mas eles parecem implementar muito poucos métodos, em comparação com a enorme quantidade de métodos existentes!

Os algoritmos menos comuns não têm desempenho suficiente? Existe algum artigo tentando revisar o maior número possível de métodos?

machine-learning references large-data online RUser4512
fonte

Se não houver, você deve escrevê-lo sozinho :)

Chris C

você entende que as pessoas na academia precisam escrever trabalhos / criar novos algoritmos e procurarão os conjuntos de dados nos quais seu algoritmo tem melhor desempenho. Eu recomendaria que você apenas entenda como uma biblioteca, como vowpal-wabbit, é executada (ou seja, todos os parâmetros, etc.).

Seanv507

Na verdade, é o contrário! Entendi que as pessoas escolhem o melhor conjunto de dados e geralmente são relativamente silenciosas sobre como validaram cruzadamente os algoritmos (deles e dos métodos concorrentes). Estou bastante procurando uma versão de streaming de jmlr.org/papers/volume15/delgado14a/delgado14a.pdf

RUser4512

Realmente como o documento JMLR que você vinculou. Eu mesmo não conheço uma comparação semelhante para algoritmos de streaming. Provavelmente porque o streaming é mais nicho e também porque, embora já seja difícil comparar classificadores para conjuntos de dados estáticos, é ainda mais complicado fazer uma comparação justa para o streaming de dados.

stats0007

Embora eles não respondam especificamente à sua pergunta, dois recursos relacionados são: Avaliando algoritmos que aprendem com fluxos de dados de Gama et al., Que discute técnicas de avaliação, e MOA (Massive Online Analysis) , uma estrutura de código aberto para mineração de fluxo de dados que incorpora a capacidade de avaliar o desempenho.

user77876

Uma pesquisa rigorosa de vários algoritmos semelhantes ao artigo de Delgado que você vinculou não está disponível, até onde eu saiba, mas houve esforços para reunir resultados para famílias de algoritmos.

Aqui estão algumas fontes que eu acho úteis (aviso: eu publico na área, por isso é provável que eu seja parcial na minha seleção):

Uma pesquisa sobre o Ensemble Learning para Data Stream Classification (Pesquisa)
Aprendizado on-line e otimização convexa on-line (relatório técnico)
Machine Learning on-line em grandes fluxos de dados (pesquisa)
Aprendizado de máquina para fluxos de dados (livro)
Algoritmos para árvores e conjuntos de regressão de aprendizagem em fluxos de dados em evolução (tese de doutorado)
Aprendendo sob o conceito de desvio: uma visão geral (pesquisa)
Aprendizagem on-line ideal e adaptável (tese de doutorado)
Aprendizagem e mineração adaptáveis para fluxos de dados e padrões frequentes (tese de doutorado)

Alguns pacotes de software:

Posso adicionar mais informações e fontes, se necessário. Como outros já disseram, o campo poderia usar uma pesquisa abrangente.

Barra
fonte

Aprendizado de streaming de última geração

Respostas: