Atualizando recursivamente o MLE à medida que novas observações fluem

15

Pergunta Geral

Digamos que temos dados iid x1 , , ... entrando. Queremos calcular recursivamente a estimativa de probabilidade máxima de . Ou seja, tendo calculado observamos um novo x_n e desejamos atualizar de alguma forma incremental nossa estimativa \ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n} sem ter que começar do zero. Existem algoritmos genéricos para isso?x2f(x|θ)θθ n - 1 = arg max θ R p n - 1 Π i = 1 F ( x i

θ^n1=argmaxθRpi=1n1f(xi|θ),
xnθ n - 1 ,
θ^n1,xnθ^n

Exemplo de brinquedo

Se , , ... , então então x1x2N(x|μ,1)μ n - 1 = 1

μ^n1=1n1i=1n1xiandμ^n=1ni=1nxi,
μ^n=1n[(n1)μ^n1+xn].

jcz
fonte
6
Não se esqueça do inverso deste problema: a atualização do estimador à medida que as observações antigas são excluídas.
Hong Ooi
Os mínimos quadrados recursivos (RLS) são uma solução (muito famosa) para uma instância específica desse problema, não é? Geralmente, eu acreditaria que a literatura sobre filtragem estocástica pode ser útil para analisar.
Jhin

Respostas:

13

Veja o conceito de suficiência e, em particular, estatísticas mínimas suficientes . Em muitos casos, você precisa de toda a amostra para calcular a estimativa em um determinado tamanho de amostra, sem uma maneira trivial de atualizar de uma amostra um tamanho menor (ou seja, não há resultado geral conveniente).

Se a distribuição for uma família exponencial (e, em alguns outros casos, além disso; o uniforme é um exemplo interessante), há uma estatística suficientemente boa que pode, em muitos casos, ser atualizada da maneira que você procura (ou seja, com várias distribuições usadas com frequência) uma atualização rápida).

Um exemplo que não conheço nenhuma maneira direta de calcular ou atualizar é a estimativa para a localização da distribuição de Cauchy (por exemplo, com escala de unidades, para tornar o problema um problema simples de um parâmetro). Pode haver uma atualização mais rápida, no entanto, que eu simplesmente não percebi - não posso dizer que realmente fiz mais do que olhar para considerar o caso de atualização.

Por outro lado, com os MLEs obtidos por métodos de otimização numérica, a estimativa anterior seria, em muitos casos, um ótimo ponto de partida, uma vez que normalmente a estimativa anterior estaria muito próxima da estimativa atualizada; nesse sentido, pelo menos, a atualização rápida costuma ser possível. Mesmo assim, esse não é o caso geral - com funções de probabilidade multimodal (novamente, veja o Cauchy por exemplo), uma nova observação pode levar o modo mais alto a alguma distância do anterior (mesmo que os locais de cada um dos poucos modos não mudou muito, qual é o mais alto pode mudar).

Glen_b -Reinstate Monica
fonte
11
Obrigado! O ponto sobre o MLE possivelmente mudar de meio do caminho é particularmente útil para entender por que isso seria difícil em geral.
Jcz 19/03/19
11
Você pode ver isso por si mesmo com o modelo Cauchy em escala unitária acima e os dados (0.1,0.11,0.12,2.91,2.921,2.933). A probabilidade de log para a localização dos modos é próxima de 0,5 e 2,5, e o pico (ligeiramente) mais alto é aquele próximo de 0,5. Agora faça a próxima observação 10 e o modo de cada um dos dois picos mal se move, mas o segundo pico agora é substancialmente mais alto. A descida de gradiente não ajuda quando isso acontece, é quase como começar de novo. Se sua população é uma mistura de dois subgrupos de tamanho semelhante com locais diferentes, essas circunstâncias podem ocorrer -. ...
ctd
DCT ... mesmo em uma amostra relativamente grande. Na situação correta, a alternância de modo pode ocorrer com bastante frequência.
Glen_b -Reinstala Monica 19/03/19
n
Sim, correto; Eu debati comigo mesmo sobre a questão de discutir isso na resposta.
Glen_b -Reinstala Monica 19/03/19
4

No aprendizado de máquina, isso é conhecido como aprendizado online .

Como o @Glen_b apontou, há casos especiais em que o MLE pode ser atualizado sem a necessidade de acessar todos os dados anteriores. Como ele também aponta, não acredito que exista uma solução genérica para encontrar o MLE.

Uma abordagem bastante genérica para encontrar a solução aproximada é usar algo como descida de gradiente estocástico. Nesse caso, à medida que cada observação chega, calculamos o gradiente com relação a essa observação individual e movemos os valores dos parâmetros uma quantidade muito pequena nessa direção. Sob certas condições, podemos mostrar que isso convergirá para uma vizinhança do MLE com alta probabilidade; o bairro é cada vez mais apertado à medida que reduzimos o tamanho da etapa, mas são necessários mais dados para a convergência. No entanto, esses métodos estocásticos em geral exigem muito mais trabalho para obter um bom desempenho do que, digamos, atualizações de formulário fechado.

Cliff AB
fonte