Venho brincando com a regressão logística com vários algoritmos de otimização de lote (gradiente conjugado, newton-raphson e vários métodos de quasinewton). Uma coisa que notei é que, às vezes, adicionar mais dados a um modelo pode tornar o treinamento do modelo muito menos demorado. Cada iteração requer a observação de mais pontos de dados, mas o número total de iterações necessárias pode cair significativamente ao adicionar mais dados. Obviamente, isso só acontece em determinados conjuntos de dados e, em algum momento, adicionar mais dados fará com que a otimização diminua a velocidade.
Esse é um fenômeno bem estudado? Onde posso encontrar mais informações sobre por que / quando isso pode acontecer?
logistic
references
optimization
Mike Izbicki
fonte
fonte
Respostas:
Com menos quantidades de dados, a correlação falsa entre as entradas de regressão geralmente é alta, pois você só tem muitos dados. Quando as variáveis de regressão são correlacionadas, a superfície da probabilidade é relativamente plana e fica mais difícil para um otimizador, especialmente aquele que não usa o Hessian completo (por exemplo, Newton Raphson), para encontrar o mínimo.
Existem alguns bons gráficos aqui e mais explicações, sobre como vários algoritmos são executados com dados com diferentes quantidades de correlação, aqui: http://fa.bianp.net/blog/2013/numerical-optimizers-for-logistic-regression/
fonte