Aprendizado de streaming de última geração

25

Ultimamente, tenho trabalhado com grandes conjuntos de dados e encontrei muitos documentos sobre métodos de streaming. Para nomear alguns:

No entanto, não consegui encontrar nenhuma documentação sobre como eles se comparam. Todos os artigos que li parecem executar experimentos em diferentes conjuntos de dados.

Eu sei sobre sofia-ml, vowpal wabbit, mas eles parecem implementar muito poucos métodos, em comparação com a enorme quantidade de métodos existentes!

Os algoritmos menos comuns não têm desempenho suficiente? Existe algum artigo tentando revisar o maior número possível de métodos?

RUser4512
fonte
7
Se não houver, você deve escrevê-lo sozinho :)
Chris C
11
você entende que as pessoas na academia precisam escrever trabalhos / criar novos algoritmos e procurarão os conjuntos de dados nos quais seu algoritmo tem melhor desempenho. Eu recomendaria que você apenas entenda como uma biblioteca, como vowpal-wabbit, é executada (ou seja, todos os parâmetros, etc.).
Seanv507
11
Na verdade, é o contrário! Entendi que as pessoas escolhem o melhor conjunto de dados e geralmente são relativamente silenciosas sobre como validaram cruzadamente os algoritmos (deles e dos métodos concorrentes). Estou bastante procurando uma versão de streaming de jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
RUser4512
11
Realmente como o documento JMLR que você vinculou. Eu mesmo não conheço uma comparação semelhante para algoritmos de streaming. Provavelmente porque o streaming é mais nicho e também porque, embora já seja difícil comparar classificadores para conjuntos de dados estáticos, é ainda mais complicado fazer uma comparação justa para o streaming de dados.
stats0007
11
Embora eles não respondam especificamente à sua pergunta, dois recursos relacionados são: Avaliando algoritmos que aprendem com fluxos de dados de Gama et al., Que discute técnicas de avaliação, e MOA (Massive Online Analysis) , uma estrutura de código aberto para mineração de fluxo de dados que incorpora a capacidade de avaliar o desempenho.
user77876

Respostas:

1

Uma pesquisa rigorosa de vários algoritmos semelhantes ao artigo de Delgado que você vinculou não está disponível, até onde eu saiba, mas houve esforços para reunir resultados para famílias de algoritmos.

Aqui estão algumas fontes que eu acho úteis (aviso: eu publico na área, por isso é provável que eu seja parcial na minha seleção):

Alguns pacotes de software:

Posso adicionar mais informações e fontes, se necessário. Como outros já disseram, o campo poderia usar uma pesquisa abrangente.

Barra
fonte