Estimação de parâmetros com modelos lineares generalizados

9

Por padrão, quando usamos uma glmfunção em R, utiliza a mínimos quadrados iterativo reponderadas método (IWLS) para encontrar a estimativa da probabilidade máxima dos parâmetros. Agora eu tenho duas perguntas.

  1. As estimativas da IWLS garantem o máximo global da função de probabilidade? Com base no último slide desta apresentação, acho que não! Eu só queria ter certeza disso.
  2. Podemos dizer que o motivo da pergunta 1 acima se deve ao fato de que quase todos os métodos de otimização numérica podem ficar no máximo local em vez de no máximo global?
Estado
fonte

Respostas:

6

Quando você está tentando estimar parâmetros, sempre deseja que exista uma solução de formulário fechado. No entanto, nem sempre existe (suponho que seja possível que, em alguns casos, exista um, mas atualmente não se sabe). Quando uma solução de formulário fechado não existe, alguma estratégia heurística deve ser empregada para procurar no espaço de parâmetros as melhores estimativas de parâmetros possíveis a serem usadas. Existem muitas estratégias de pesquisa (por exemplo R, em ,? Optim lista 6 métodos de uso geral). O IRWLS é uma versão simplificada do algoritmo Newton-Raphson .

Infelizmente, a resposta para o seu [ 1 ] é que nenhuma estratégia de pesquisa heurística é garantida para encontrar o mínimo global (máximo). Existem três razões pelas quais esse é o caso:

  1. Conforme observado no slide 9 da sua apresentação vinculada, nenhuma solução exclusiva pode existir. Exemplos disso podem ser multicolinearidade perfeita ou quando há mais parâmetros a serem estimados do que dados .
  2. Conforme observado no slide 10 (acho que essa apresentação é muito boa), a solução pode ser infinita. Isso pode acontecer na regressão logística, por exemplo, quando você tem uma separação perfeita .
  3. Também pode ser que exista um mínimo global finito (máximo), mas que o algoritmo não o encontre. Esses algoritmos (principalmente IRWLS e NR) tendem a começar de um local especificado e 'olham em volta' para ver se mover em alguma direção constitui 'ir ladeira abaixo' (ou seja, melhorar o ajuste). Nesse caso, ele será ajustado novamente a alguma distância nessa direção e repetido até que a melhoria prevista / prevista seja menor que algum limite. Portanto, pode haver duas maneiras de não atingir o mínimo global:

    1. A taxa de descida do local atual em direção ao mínimo global (máximo) é muito rasa para ultrapassar o limite e o algoritmo pára antes da solução.
    2. Existe um mínimo local (máximo) entre a localização atual e o mínimo global (máximo), de modo que pareça ao algoritmo que movimentos adicionais levem a um ajuste pior .

Em relação ao seu [ 2 ], esteja ciente de que diferentes estratégias de pesquisa têm diferentes tendências a serem capturadas nos mínimos locais. Até a mesma estratégia pode às vezes ser adaptada ou iniciada a partir de um ponto de partida diferente para abordar os dois últimos problemas.

- Reinstate Monica
fonte
Obrigado gung. Mais uma pergunta: como podemos selecionar um bom ponto de partida ao otimizar?
Stat
Não sei se existe necessariamente o melhor caminho. Às vezes, é necessário tentar alguns pontos de partida diferentes, se ele não convergir ou se você não tiver certeza de que está no mínimo global. Eu acho que uma maneira comum de os programas escolherem um ponto de partida é usar as estimativas do OLS, mesmo que elas não sejam apropriadas e você saiba que terá que sair daqui.
gung - Restabelece Monica
6

Você está certo de que, em geral, o IWLS, como outros métodos de otimização numérica, só pode garantir a convergência para um máximo local, se convergir. Aqui está um bom exemplo de onde o valor inicial estava fora do domínio de convergência para o algoritmo usado por glm () em R. No entanto, vale ressaltar que, para GLMs com o link canônico, a probabilidade é côncava, veja aqui . Assim, se o algoritmo convergir, ele convergirá para o modo global!

A última questão apontada no slide é um problema em que o MLE de um parâmetro está no infinito. Isso pode ocorrer na regressão logística onde existe separação completa. Nesse caso, você receberá uma mensagem de aviso de que as probabilidades ajustadas são numericamente 0 ou 1. É importante observar que, quando isso ocorre, o algoritmo não convergiu para o modo, portanto, isso não tem a ver com o algoritmo sendo preso em um máximo local.

jsk
fonte