Modelos mistos são úteis como modelos preditivos?

Estou um pouco confuso sobre as vantagens de modelos mistos em relação à modelagem preditiva. Como os modelos preditivos costumam prever valores de observações anteriormente desconhecidas, parece-me óbvio que a única maneira de um modelo misto ser útil é através da capacidade de fornecer previsões no nível da população (sem adicionar efeitos aleatórios). No entanto, o problema é que, até agora, em minha experiência, as previsões em nível populacional baseadas em modelos mistos são significativamente piores do que as previsões baseadas em modelos de regressão padrão apenas com efeitos fixos.

Então, qual é o sentido dos modelos mistos em relação aos problemas de previsão?

EDITAR. O problema é o seguinte: ajustei um modelo misto (com efeitos fixos e aleatórios) e um modelo linear padrão apenas com efeitos fixos. Quando faço validação cruzada, obtenho uma seguinte hierarquia de precisão preditiva: 1) modelos mistos ao prever usando efeitos fixos e aleatórios (mas isso funciona, obviamente, apenas para observações com níveis conhecidos de variáveis de efeitos aleatórios, portanto, essa abordagem preditiva parece não ser adequado para aplicações preditivas reais!); 2) modelo linear padrão; 3) modelo misto ao usar previsões em nível populacional (com efeitos aleatórios descartados). Assim, a única diferença entre o modelo linear padrão e o modelo misto é um valor um pouco diferente dos coeficientes devido a diferentes métodos de estimativa (ou seja, existem os mesmos efeitos / preditores nos dois modelos, mas eles têm coeficientes associados diferentes).

Portanto, minha confusão se resume a uma pergunta: por que eu usaria um modelo misto como modelo preditivo, já que usar o modelo misto para gerar previsões no nível populacional parece ser uma estratégia inferior em comparação com um modelo linear padrão.

mixed-model predictive-models sztal
fonte

Como você está fazendo suas previsões? Você não está usando os efeitos aleatórios ou está corrigindo seus efeitos aleatórios à sua maneira? (Ie você está jogando fora os efeitos aleatórios em tempo de previsão?)

Wayne

Tanto quanto eu entendo os efeitos aleatórios corretamente, fixar os efeitos aleatórios de suas maneiras é o mesmo que jogá-los fora, uma vez que efeitos aleatórios (pelo menos na parametrização que eu uso) são gerados a partir de distribuições normais de médias 0 e sigma de variância. De qualquer forma, como eu não conheço os valores das variáveis de efeitos aleatórios para novas observações, é claro que não uso efeitos aleatórios no tempo de previsão, apenas efeitos fixos.

Sztal # 7/16

Você pode examinar este artigo, "Sobre a eficácia de classificadores de regressão logística baseados em modelos mistos para dados longitudinais", search.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/…

Jon

sztal: Você está certo, é claro. Eu estava tentando responder rapidamente e disse algo sem sentido. Eu encontrei o artigo ( gllamm.org/JRSSApredict_09.pdf ), que trata das previsões na Seção 7. Devo dizer que não posso resumir isso em um comentário, o que indica que eu realmente não o entendo.

7306 Wayne

Uma última pergunta: quando você compara efeitos fixos apenas a efeitos mistos, você está usando os mesmos efeitos fixos em cada um, apenas com a adição de algo como uma interceptação em nível individual? Parece que, nessa situação, você deve ter efeitos muito semelhantes, exceto com uma idéia melhor do seu verdadeiro intervalo preditivo.

Wayne

Respostas:

Depende da natureza dos dados, mas, em geral, eu esperaria que o modelo misto superasse os modelos somente de efeitos fixos.

Vamos dar um exemplo: modelando a relação entre a luz do sol e a altura dos talos de trigo. Temos várias medidas de caules individuais, mas muitos deles são medidos nos mesmos locais (que são semelhantes no solo, na água e em outras coisas que podem afetar a altura). Aqui estão alguns modelos possíveis:

1) altura ~ luz do sol

2) altura ~ sol + local

3) altura ~ luz do sol + (1 | site)

Queremos usar esses modelos para prever a altura de novos caules de trigo, dada uma estimativa da luz do sol que eles experimentarão. Vou ignorar a penalidade de parâmetro que você pagaria por ter muitos sites em um modelo apenas de efeitos fixos e considerar o poder preditivo relativo dos modelos.

A questão mais relevante aqui é se esses novos pontos de dados que você está tentando prever são de um dos sites que você mediu; você diz que isso é raro no mundo real, mas acontece.

A) Novos dados são de um site que você mediu

Nesse caso, os modelos 2 e 3 superarão o número 1. Ambos usam informações mais relevantes (efeito médio do site) para fazer previsões.

B) Novos dados são de um site não medido

Eu ainda esperaria que o modelo nº 3 superasse os números 1 e 2, pelos seguintes motivos.

(i) Modelo # 3 vs # 1:

O modelo 1 produzirá estimativas tendenciosas em favor de sites com excesso de representação. Se você tiver um número semelhante de pontos de cada site e uma amostra razoavelmente representativa de sites, deverá obter resultados semelhantes de ambos.

(ii) Modelo nº 3 vs. nº 2:

Por que o modelo 3 seria melhor que o modelo 2 neste caso? Como os efeitos aleatórios tiram vantagem do encolhimento - os efeitos do site serão "encolhidos" para zero. Em outras palavras, você tenderá a encontrar valores menos extremos para efeitos do site quando especificado como um efeito aleatório do que quando especificado como efeito fixo. Isso é útil e melhora sua capacidade preditiva quando os meios da população podem ser considerados razoavelmente retirados de uma distribuição normal (consulte Paradoxo de Stein em Estatística ). Se não se espera que os meios da população sigam uma distribuição normal, isso pode ser um problema, mas geralmente é uma suposição bastante razoável e o método é robusto a pequenos desvios.

[Nota lateral: por padrão, ao ajustar o modelo 2, a maioria dos softwares usaria um dos sites como referência e estimaria coeficientes para os outros sites que representam o desvio da referência. Portanto, pode parecer que não há como calcular um 'efeito populacional' geral. Mas você pode calcular isso calculando a média das previsões para todos os sites individuais ou, mais simplesmente, alterando a codificação do modelo para que os coeficientes sejam calculados para cada site.]

mkt - Restabelecer Monica
fonte

Obrigado pela resposta. Estou bastante convencido. Infelizmente, não me lembro agora do caso exato que motivou minha pergunta, mas acho que o fraco desempenho de um modelo misto no meu caso poderia ter sido devido a distribuições bastante irregulares de preditores que usei no modelo. Em breve, aceitarei a resposta, mas, como a pergunta atraiu um pouco de atenção, darei mais alguns dias para que alguém possa dar uma explicação mais rigorosa (talvez com alguns exemplos).

sztal

Bem colocado. Deve-se notar que prever heirarquicamente os efeitos específicos do local que originam os efeitos aleatórios, para prever qualquer interceptação aleatória ou inclinação aleatória estimada empiricamente a partir do modelo, deve ser equivalente a apenas ter um monte de efeitos fixos específicos no nível e no local no modelo.

AdamO 22/07

Seguindo a excelente resposta do mkt: A partir de minha própria experiência pessoal no desenvolvimento de modelos preditivos no campo do seguro de saúde, a incorporação de efeitos aleatórios em modelos preditivos (incluindo modelos de aprendizado de máquina) tem várias vantagens.

Muitas vezes me pedem para criar modelos que prevejam resultados futuros de reivindicações (por exemplo, despesas futuras com saúde, tempo de permanência etc.) com base nos dados históricos de reivindicações de um indivíduo. Freqüentemente, há várias reivindicações por indivíduo com resultados correlatos. Ignorar o fato de que muitas reivindicações são compartilhadas pelo mesmo paciente estaria lançando informações valiosas em um modelo preditivo.

Uma solução seria criar variáveis de indicador de efeito fixo para cada membro no conjunto de dados e usar uma regressão penalizada para reduzir cada um dos efeitos fixos no nível do membro separadamente. No entanto, se houver milhares ou milhões de membros em seus dados, uma solução mais eficiente do ponto de vista computacional e preditivo pode ser representar os vários efeitos fixos no nível de membro como um único termo de efeito aleatório com uma distribuição normal.

RobertF
fonte