Pergunta Geral
Digamos que temos dados iid , , ... entrando. Queremos calcular recursivamente a estimativa de probabilidade máxima de . Ou seja, tendo calculado
observamos um novo x_n e desejamos atualizar de alguma forma incremental nossa estimativa
\ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n}
sem ter que começar do zero. Existem algoritmos genéricos para isso?θ n - 1 = arg max θ ∈ R p n - 1 Π i = 1 F ( x iθ n - 1 ,
Exemplo de brinquedo
Se , , ... , então
então
μ n - 1 = 1
Respostas:
Veja o conceito de suficiência e, em particular, estatísticas mínimas suficientes . Em muitos casos, você precisa de toda a amostra para calcular a estimativa em um determinado tamanho de amostra, sem uma maneira trivial de atualizar de uma amostra um tamanho menor (ou seja, não há resultado geral conveniente).
Se a distribuição for uma família exponencial (e, em alguns outros casos, além disso; o uniforme é um exemplo interessante), há uma estatística suficientemente boa que pode, em muitos casos, ser atualizada da maneira que você procura (ou seja, com várias distribuições usadas com frequência) uma atualização rápida).
Um exemplo que não conheço nenhuma maneira direta de calcular ou atualizar é a estimativa para a localização da distribuição de Cauchy (por exemplo, com escala de unidades, para tornar o problema um problema simples de um parâmetro). Pode haver uma atualização mais rápida, no entanto, que eu simplesmente não percebi - não posso dizer que realmente fiz mais do que olhar para considerar o caso de atualização.
Por outro lado, com os MLEs obtidos por métodos de otimização numérica, a estimativa anterior seria, em muitos casos, um ótimo ponto de partida, uma vez que normalmente a estimativa anterior estaria muito próxima da estimativa atualizada; nesse sentido, pelo menos, a atualização rápida costuma ser possível. Mesmo assim, esse não é o caso geral - com funções de probabilidade multimodal (novamente, veja o Cauchy por exemplo), uma nova observação pode levar o modo mais alto a alguma distância do anterior (mesmo que os locais de cada um dos poucos modos não mudou muito, qual é o mais alto pode mudar).
fonte
No aprendizado de máquina, isso é conhecido como aprendizado online .
Como o @Glen_b apontou, há casos especiais em que o MLE pode ser atualizado sem a necessidade de acessar todos os dados anteriores. Como ele também aponta, não acredito que exista uma solução genérica para encontrar o MLE.
Uma abordagem bastante genérica para encontrar a solução aproximada é usar algo como descida de gradiente estocástico. Nesse caso, à medida que cada observação chega, calculamos o gradiente com relação a essa observação individual e movemos os valores dos parâmetros uma quantidade muito pequena nessa direção. Sob certas condições, podemos mostrar que isso convergirá para uma vizinhança do MLE com alta probabilidade; o bairro é cada vez mais apertado à medida que reduzimos o tamanho da etapa, mas são necessários mais dados para a convergência. No entanto, esses métodos estocásticos em geral exigem muito mais trabalho para obter um bom desempenho do que, digamos, atualizações de formulário fechado.
fonte