Ao otimizar um modelo de regressão logística, algumas vezes mais dados tornam as coisas * mais rápidas *. Alguma idéia do porquê?

8

Venho brincando com a regressão logística com vários algoritmos de otimização de lote (gradiente conjugado, newton-raphson e vários métodos de quasinewton). Uma coisa que notei é que, às vezes, adicionar mais dados a um modelo pode tornar o treinamento do modelo muito menos demorado. Cada iteração requer a observação de mais pontos de dados, mas o número total de iterações necessárias pode cair significativamente ao adicionar mais dados. Obviamente, isso só acontece em determinados conjuntos de dados e, em algum momento, adicionar mais dados fará com que a otimização diminua a velocidade.

Esse é um fenômeno bem estudado? Onde posso encontrar mais informações sobre por que / quando isso pode acontecer?

Mike Izbicki
fonte
5
Esta é uma observação interessante. O fato de o número de iterações poder diminuir com mais dados é intuitivo: exceto com a separação completa, ter mais dados implica maior precisão, mesmo em estimativas iniciais aproximadas da solução. Com menos dados, uma pesquisa inicial mais ampla, com pequenos gradientes, pode precisar ocorrer. A análise da matriz de informações em uma vizinhança dos valores dos parâmetros verdadeiros tornaria essa intuição quantitativa.
whuber
5
Além do que o @whuber menciona, adicionar dados pode tornar a probabilidade mais agradável "superfície", o que significa que algoritmos típicos devem convergir muito mais rapidamente. Em amostras pequenas, a convergência para GLMs às vezes pode ser lenta porque a superfície não é uma coisa agradável, quase quadrática nos parâmetros. À medida que os tamanhos das amostras aumentam - especialmente se você tiver uma função de link canônico, a probabilidade é apenas uma função de algumas estatísticas suficientemente simples - pode ser mais rápido, não apenas nas iterações, mas possivelmente até no tempo.
Glen_b -Reinstala Monica
1
Entendo a intuição que vocês dois mencionam, mas estou curioso para saber se isso pode ser quantificado um pouco mais. Por exemplo, talvez alguns resultados experimentais que mostrem quanta melhoria de velocidade possa ser obtida com mais dados.
Mike Izbicki
1
Muitas coisas estranhas podem afetar a velocidade de processamento. Veja a pergunta mais votada no Stack Overflow, por exemplo.
Nick Stauner
Você pode fornecer um caso que mostre isso? Se você puder torná-lo "típico" para sua experiência, e mostrar que como um subconjunto de dados "saudáveis" tem convergência lenta, mas o conjunto de dados em si possui convergência mais rápida, o que pode ajudar com uma resposta melhor. Eu acho que acabei de parafrasear Mike Izbicki.
EngrStudent

Respostas:

4

Com menos quantidades de dados, a correlação falsa entre as entradas de regressão geralmente é alta, pois você só tem muitos dados. Quando as variáveis ​​de regressão são correlacionadas, a superfície da probabilidade é relativamente plana e fica mais difícil para um otimizador, especialmente aquele que não usa o Hessian completo (por exemplo, Newton Raphson), para encontrar o mínimo.

Existem alguns bons gráficos aqui e mais explicações, sobre como vários algoritmos são executados com dados com diferentes quantidades de correlação, aqui: http://fa.bianp.net/blog/2013/numerical-optimizers-for-logistic-regression/

Joe
fonte