Métodos estatísticos on-line e escalonáveis

12

Isso foi inspirado pela regressão linear online eficiente , que achei muito interessante. Existem textos ou recursos dedicados à computação estatística em larga escala, pelos quais a computação com conjuntos de dados grandes demais para caber na memória principal e talvez variada demais para subamostrar com eficácia. Por exemplo, é possível ajustar modelos de efeitos mistos de maneira online? Alguém já examinou os efeitos da substituição das técnicas padrão de otimização de 2ª ordem do MLE por técnicas do tipo SGD de 1ª ordem?

grg s
fonte
Eu acho que a resposta é sim". Claro, há um pouco de uma questão de definições aqui. O que uma pessoa considera "em larga escala" às vezes é muito diferente da outra. Minha impressão é que, por exemplo, muitos pesquisadores acadêmicos consideram o conjunto de dados do Netflix "em larga escala", enquanto em muitos ambientes industriais ele seria considerado "insignificante". No que diz respeito às técnicas de estimativa, geralmente com dados muito grandes, a eficiência computacional supera a eficiência estatística. Por exemplo, o método dos momentos, em muitos casos, executará (quase) o MLE nessas configurações e pode ser muito mais fácil de calcular.
cardeal
2
você também pode consultar o Workshop sobre algoritmos para conjuntos de dados maciços modernos (MMDS). É jovem, mas atrai um conjunto impressionante de alto-falantes nas interfaces de estatística, engenharia e ciência da computação, bem como entre a academia e a indústria.
cardeal
Faz apenas algumas décadas desde que a maioria dos conjuntos de dados era grande demais para caber na memória principal, e a escolha dos algoritmos usados ​​nos primeiros programas estatísticos refletiu isso. Esses programas não tinham instalações para modelos de efeitos mistos.
onestop
Você é capaz de calcular estatísticas para o conjunto de dados? digamos, por exemplo, a soma ou média dos itens de dados?
probabilityislogic

Respostas:

5

Você pode olhar para o projeto Vowpal Wabbit , de John Langford no Yahoo! Pesquisa . É um aluno on-line que faz a descida de gradiente especializada em algumas funções de perda. A VW tem alguns recursos incríveis:

  • Instala no Ubuntu trivialmente, com "sudo apt-get install vowpal-wabbit".
  • Usa o truque de hash para espaços de recursos muito grandes.
  • Pesos adaptativos específicos ao recurso.
  • Mais importante ainda, há uma lista de discussão ativa e uma comunidade conectando o projeto.

O livro Bianchi & Lugosi Prediction, Learning and Games fornece uma base teórica sólida para o aprendizado on-line. Uma leitura pesada, mas vale a pena!

someben
fonte