Para a média do modelo de um GLM, calculamos a média das previsões no link ou na escala de resposta?

12

Para calcular as previsões médias do modelo na escala de resposta de um GLM, que é "correto" e por quê?

  1. Calcule a previsão média do modelo na escala do link e depois volte a transformar na escala da resposta, ou
  2. Voltar Transforme as previsões na escala de resposta e depois calcule a média do modelo

As previsões são próximas, mas não iguais, se o modelo for um GLM. Os diferentes pacotes R oferecem opções para ambos (com diferentes padrões). Vários colegas argumentaram com veemência que o nº 1 está errado porque "todo mundo faz o nº 2". Minha intuição diz que o número 1 é "correto", pois mantém toda a matemática linear linear (o número 2 calcula a média de coisas que não estão em uma escala linear). Uma simulação simples descobre que o nº 2 tem um MSE muito (muito!) Ligeiramente menor que o nº 1. Se o número 2 estiver correto, qual o motivo? E, se o número 2 estiver correto, por que o meu motivo (manter a matemática linear linear) é um raciocínio ruim?

Edit 1: Computar médias marginais acima dos níveis de outro fator em um GLM é um problema semelhante à pergunta que estou fazendo acima. Russell Lenth calcula médias marginais dos modelos GLM usando o "timing" (suas palavras) do número 1 (no pacote emmeans) e seu argumento é semelhante à minha intuição.

Edit 2: Estou usando a média do modelo para se referir à alternativa à seleção de modelos em que uma previsão (ou um coeficiente) é estimada como a média ponderada de todos ou de um subconjunto dos "melhores" modelos aninhados (consulte as referências e os pacotes R abaixo) .

Dados modelos aninhados, onde é a previsão linear (no espaço do link) para o indivíduo para o modelo , e é o peso para o modelo , a previsão média do modelo usando # 1 acima (média no link escala e, em seguida, retroceda à escala de resposta) é:MηEumEumWmm

Y^Eu=g-1(m=1MWmηEum)

e a previsão média do modelo usando o item 2 acima (transformar de volta todas as previsões e depois a média na escala de resposta) é:M

Y^Eu=m=1MWmg-1(ηEum)

Alguns métodos bayesianos e freqüentistas de média de modelos são:

  • Hoeting, JA, Madigan, D., Raftery, AE e Volinsky, CT, 1999. Média bayesiana do modelo: um tutorial. Statistical science, pp.382-401.

  • Burnham, KP e Anderson, DR, 2003. Seleção de modelos e inferência multimodal: uma abordagem prática da teoria da informação. Springer Science & Business Media.

  • Hansen, BE, 2007. Média do modelo dos mínimos quadrados. Econometrica, 75 (4), pp.1175-1189.

  • Claeskens, G. e Hjort, NL, 2008. Seleção e média de modelos. Livros de Cambridge.

Os pacotes R incluem BMA , MuMIn , BAS e AICcmodavg . (Nota: essa não é uma pergunta sobre a sabedoria de fazer a média do modelo de maneira mais geral.)

JWalker
fonte
1
Eu suspeito que o motivo pelo qual sua pergunta não esteja recebendo respostas é que outros leitores, como eu, não entendem sua pergunta. O que você quer dizer exatamente com "média do modelo"? Descreva um contexto em detalhes para entendermos qual é o problema que você está tentando resolver. Tanto quanto eu posso ver, o pacote emmeans não mede previsões de modelos diferentes.
Gordon Smyth
1
Obrigado por fazer isso e posso ver que adicionar a nota Russell Lenth confunde minha pergunta. Eu tentei esclarecer isso acima. O pacote emmeans calculará médias marginais e SE sobre os níveis de outro fator, e essas estatísticas são computadas na escala do link e depois transformadas novamente. Veja a seção "O modelo é o nosso melhor guia" .
JWalker
Eu realmente estaria interessado em respostas para esta pergunta. Enquanto isso, um comentário. Esse resultado MSE é calculado na escala transformada de volta. Eu apostaria que, com os mesmos resultados de simulação, o MSE, quando calculado na escala de links, seria menor com o número 1 do que com o número 2. O motivo é que a média da amostra é o estimador de mínimos quadrados da média da população, mesmo na escala errada.
Russ Lenth

Respostas:

6

A maneira ideal de combinar estimadores ou preditores depende da função de perda que você está tentando minimizar (ou da função de utilitário que você está tentando maximizar).

De um modo geral, se a função de perda medir erros de previsão na escala de resposta, calcule a média dos preditores na escala de resposta. Se, por exemplo, você estiver buscando minimizar o erro quadrático esperado da previsão na escala de resposta, o preditor médio posterior será ideal e, dependendo das suposições do seu modelo, isso poderá ser equivalente à média das previsões na escala de resposta.

Observe que a média na escala preditora linear pode ter um desempenho muito ruim para modelos discretos. Suponha que você esteja usando uma regressão logística para prever a probabilidade de uma variável de resposta binária. Se algum dos modelos fornecer uma probabilidade estimada de zero, o preditor linear para esse modelo será menos infinito. Tomar a média do infinito com qualquer número de valores finitos ainda será infinito.

Você consultou as referências que você lista? Estou certo de que Hoeting et al (1999), por exemplo, discutem funções de perda, embora talvez não com muitos detalhes.

Gordon Smyth
fonte
1
Excelente. Obrigado por esta resposta (congratulo-me com outros!). Suponho que "então a média dos preditores provavelmente seja ótima ou próxima disso" é a média dos preditores na escala de resposta. A nota logística é especialmente útil.
JWalker 22/08/19
1
@rvl Em relação à linearidade da função de perda, eu estava pensando em termos da função de influência da perda. Concordo que é um pouco enigmático, por isso editei meus comentários. Eu tenho que discordar de seus outros comentários. GLMs são estimados por ML, não por perda de erro ao quadrado. Apesar do nome, o algoritmo IRLS popular para GLMs não minimiza uma soma de quadrados e a variável de trabalho IRLS envolve resíduos padronizados na escala de resposta, não na escala de link. Em qualquer caso, estimativa e previsão não são as mesmas e não precisam ter as mesmas funções de perda.
Gordon Smyth
@rvl Os valores exatos de zero ajustados ocorrem com freqüência na regressão logística e foram discutidos neste fórum várias vezes.
Gordon Smyth
@rvl A perda não é avaliada na escala do link. Essa discussão não é o lugar certo para eu oferecer a você um tutorial sobre GLMs - em vez disso, refiro-me ao meu livro sobre GLMs, que a Springer publicará em cerca de um mês. Essa discussão também não é o lugar certo para você oferecer uma resposta alternativa à pergunta original. Escreva uma resposta adequada se você quiser fazer isso.
Gordon Smyth
Aqui está o link para o nosso livro sobre GLMs
Gordon Smyth