Estou um pouco confuso sobre as vantagens de modelos mistos em relação à modelagem preditiva. Como os modelos preditivos costumam prever valores de observações anteriormente desconhecidas, parece-me óbvio que a única maneira de um modelo misto ser útil é através da capacidade de fornecer previsões no nível da população (sem adicionar efeitos aleatórios). No entanto, o problema é que, até agora, em minha experiência, as previsões em nível populacional baseadas em modelos mistos são significativamente piores do que as previsões baseadas em modelos de regressão padrão apenas com efeitos fixos.
Então, qual é o sentido dos modelos mistos em relação aos problemas de previsão?
EDITAR. O problema é o seguinte: ajustei um modelo misto (com efeitos fixos e aleatórios) e um modelo linear padrão apenas com efeitos fixos. Quando faço validação cruzada, obtenho uma seguinte hierarquia de precisão preditiva: 1) modelos mistos ao prever usando efeitos fixos e aleatórios (mas isso funciona, obviamente, apenas para observações com níveis conhecidos de variáveis de efeitos aleatórios, portanto, essa abordagem preditiva parece não ser adequado para aplicações preditivas reais!); 2) modelo linear padrão; 3) modelo misto ao usar previsões em nível populacional (com efeitos aleatórios descartados). Assim, a única diferença entre o modelo linear padrão e o modelo misto é um valor um pouco diferente dos coeficientes devido a diferentes métodos de estimativa (ou seja, existem os mesmos efeitos / preditores nos dois modelos, mas eles têm coeficientes associados diferentes).
Portanto, minha confusão se resume a uma pergunta: por que eu usaria um modelo misto como modelo preditivo, já que usar o modelo misto para gerar previsões no nível populacional parece ser uma estratégia inferior em comparação com um modelo linear padrão.
Respostas:
Depende da natureza dos dados, mas, em geral, eu esperaria que o modelo misto superasse os modelos somente de efeitos fixos.
Vamos dar um exemplo: modelando a relação entre a luz do sol e a altura dos talos de trigo. Temos várias medidas de caules individuais, mas muitos deles são medidos nos mesmos locais (que são semelhantes no solo, na água e em outras coisas que podem afetar a altura). Aqui estão alguns modelos possíveis:
1) altura ~ luz do sol
2) altura ~ sol + local
3) altura ~ luz do sol + (1 | site)
Queremos usar esses modelos para prever a altura de novos caules de trigo, dada uma estimativa da luz do sol que eles experimentarão. Vou ignorar a penalidade de parâmetro que você pagaria por ter muitos sites em um modelo apenas de efeitos fixos e considerar o poder preditivo relativo dos modelos.
A questão mais relevante aqui é se esses novos pontos de dados que você está tentando prever são de um dos sites que você mediu; você diz que isso é raro no mundo real, mas acontece.
A) Novos dados são de um site que você mediu
Nesse caso, os modelos 2 e 3 superarão o número 1. Ambos usam informações mais relevantes (efeito médio do site) para fazer previsões.
B) Novos dados são de um site não medido
Eu ainda esperaria que o modelo nº 3 superasse os números 1 e 2, pelos seguintes motivos.
(i) Modelo # 3 vs # 1:
O modelo 1 produzirá estimativas tendenciosas em favor de sites com excesso de representação. Se você tiver um número semelhante de pontos de cada site e uma amostra razoavelmente representativa de sites, deverá obter resultados semelhantes de ambos.
(ii) Modelo nº 3 vs. nº 2:
Por que o modelo 3 seria melhor que o modelo 2 neste caso? Como os efeitos aleatórios tiram vantagem do encolhimento - os efeitos do site serão "encolhidos" para zero. Em outras palavras, você tenderá a encontrar valores menos extremos para efeitos do site quando especificado como um efeito aleatório do que quando especificado como efeito fixo. Isso é útil e melhora sua capacidade preditiva quando os meios da população podem ser considerados razoavelmente retirados de uma distribuição normal (consulte Paradoxo de Stein em Estatística ). Se não se espera que os meios da população sigam uma distribuição normal, isso pode ser um problema, mas geralmente é uma suposição bastante razoável e o método é robusto a pequenos desvios.
[Nota lateral: por padrão, ao ajustar o modelo 2, a maioria dos softwares usaria um dos sites como referência e estimaria coeficientes para os outros sites que representam o desvio da referência. Portanto, pode parecer que não há como calcular um 'efeito populacional' geral. Mas você pode calcular isso calculando a média das previsões para todos os sites individuais ou, mais simplesmente, alterando a codificação do modelo para que os coeficientes sejam calculados para cada site.]
fonte
Seguindo a excelente resposta do mkt: A partir de minha própria experiência pessoal no desenvolvimento de modelos preditivos no campo do seguro de saúde, a incorporação de efeitos aleatórios em modelos preditivos (incluindo modelos de aprendizado de máquina) tem várias vantagens.
Muitas vezes me pedem para criar modelos que prevejam resultados futuros de reivindicações (por exemplo, despesas futuras com saúde, tempo de permanência etc.) com base nos dados históricos de reivindicações de um indivíduo. Freqüentemente, há várias reivindicações por indivíduo com resultados correlatos. Ignorar o fato de que muitas reivindicações são compartilhadas pelo mesmo paciente estaria lançando informações valiosas em um modelo preditivo.
Uma solução seria criar variáveis de indicador de efeito fixo para cada membro no conjunto de dados e usar uma regressão penalizada para reduzir cada um dos efeitos fixos no nível do membro separadamente. No entanto, se houver milhares ou milhões de membros em seus dados, uma solução mais eficiente do ponto de vista computacional e preditivo pode ser representar os vários efeitos fixos no nível de membro como um único termo de efeito aleatório com uma distribuição normal.
fonte