Independência de resíduos em um experimento / simulação em computador?

17

Realizei uma avaliação baseada em computador de diferentes métodos de ajuste de um tipo específico de modelo usado nas ciências paleo. Eu tinha um conjunto de treinamento amplo e, por isso, aleatoriamente (amostragem aleatória estratificada), anotei um conjunto de testes. Ajustei métodos diferentes às amostras do conjunto de treinamento e, usando os m modelos resultantes, previ a resposta para as amostras do conjunto de teste e calculei um RMSEP sobre as amostras no conjunto de teste. Esta é uma corrida única .mm

Repeti esse processo várias vezes, cada vez que escolhi um conjunto de treinamento diferente, amostrando aleatoriamente um novo conjunto de testes.

Depois de fazer isso, quero investigar se algum dos métodos tem desempenho RMSEP melhor ou pior. Eu também gostaria de fazer várias comparações dos métodos aos pares.m

Minha abordagem foi ajustar um modelo linear de efeitos mistos (LME), com um único efeito aleatório para Run . Eu usei lmer()no pacote lme4 para ajustar meu modelo e funções do pacote multcomp para executar várias comparações. Meu modelo era essencialmente

lmer(RMSEP ~ method + (1 | Run), data = FOO)

onde methodé um fator que indica qual método foi usado para gerar as previsões do modelo para o conjunto de testes e Runé um indicador para cada execução específica do meu "experimento".

Minha pergunta é em relação aos resíduos da LME. Dado o único efeito aleatório da execução , estou assumindo que os valores de RMSEP para essa execução estejam correlacionados até certo ponto, mas não estejam correlacionados entre as execuções, com base na correlação induzida que o efeito aleatório fornece.

Essa suposição de independência entre as execuções é válida? Se não, existe uma maneira de explicar isso no modelo LME ou devo procurar outro tipo de análise estática para responder à minha pergunta?

Restabelecer Monica - G. Simpson
fonte
Os resíduos são condicionais aos efeitos aleatórios previstos ou incondicionais e nas simulações os efeitos aleatórios previstos são constantes ou variáveis. Lembre-se de tentar entender isso para os métodos de simulação padrão no LME4 e não conseguir (mas o projeto foi cancelado antes de eu resolvê-lo).
Phaneron 18/10/12
Não tenho certeza se eu sigo completamente, mas as várias execuções do conjunto de treinamento de empate -> modelos de ajuste -> RMSEP de computação são realizadas antes do LME. O efeito aleatório é para execução, pois cada execução terá uma interceptação diferente (RMSEP) conforme diferentes combinações de amostras do conjunto de teste são escolhidas, mas isso é constante na execução. Quanto ao bit condicional / incondicional, não sei ao certo o que você quer dizer. Obrigado pelo seu comentário.
Reinstate Monica - G. Simpson

Respostas:

4

Você está essencialmente fazendo alguma forma de validação cruzada aqui para cada um de seus m métodos e, então, gostaria de ver qual método desempenho melhor. Os resultados entre as corridas serão definitivamente dependentes, pois são baseados nos mesmos dados e você se sobrepõe aos seus conjuntos de trem / teste. A questão é se isso deve importar quando você comparar os métodos.

Digamos que você executaria apenas uma execução e descobriria que um método é melhor que os outros. Você se perguntaria - isso se deve simplesmente à escolha específica do conjunto de testes? É por isso que você repete seu teste para vários conjuntos de trens / testes. Portanto, para determinar se um método é melhor que outros métodos, você executa várias vezes e em cada execução o compara com os outros métodos (você tem opções diferentes para observar o erro / classificação / etc). Agora, se você achar que um método se sai melhor na maioria das execuções, o resultado é o que é. Não sei se é útil atribuir um valor p a isso. Ou, se você deseja atribuir um valor p, pergunte-se qual é o modelo de plano de fundo aqui?

Bit a bit
fonte
Obrigado por seus pensamentos. Acho que suas últimas falas resumem muito bem onde estou agora. Antecipando isso, tenho um acompanhamento em que pergunto sobre maneiras apropriadas de analisar esse tipo de dados. Também gosto do seu argumento sobre "é o que é"; que estava rodando nas bordas do meu processo de pensamento recentemente também.
Reintegrar Monica - G. Simpson
Um problema que tenho com a parte "resultado é o que é" é que os RMSEPs são bastante variáveis ​​de uma execução para outra. Então, em média, um ou dois métodos são melhores, mas eles são realmente melhores, dada a variabilidade nos RMSEPs? Daí a minha tentativa de um LME com efeito aleatório para Run. Para modificar essa abordagem, eu precisaria saber quem está correlacionado com cada conjunto de dados. Parece que qualquer teste estatístico que eu faça precisaria ser modificado. Por isso, ainda luto com a maneira de interpretar os meios das 50 corridas para cada método e se consigo tirar conclusões ...?
Reinstate Monica - G. Simpson
1
Do meu ponto de vista, avaliar seus métodos em todas as partições possíveis de conjunto de teste / trem de seus dados teria sido a avaliação mais abrangente. Como isso é impossível, você está estimando isso com execuções aleatórias. Digamos que você possa avaliar todas as partições de treinamento / teste - você ainda terá a questão de como decidir qual método é melhor. Portanto, isso é mais uma questão de como você define o que é "bom". Isso significa pontuação média alta? Ou isso significa que, em muitas execuções, um método obtém uma pontuação mais alta que as outras (pessoalmente, acho que essa seria uma versão melhor)?
Bitwise
1

Pode realmente não entender o que você fez, mas

para execução, estou assumindo que os valores RMSEP para essa execução estejam correlacionados em algum grau

Sim, isso reflete o quão desafiador foi o conjunto de testes nessa execução

mas não estão correlacionados entre execuções

Não, dada a maneira como você amostrou os conjuntos de testes, alguns ficarão mais sobrepostos do que outros (definitivamente, não replicações independentes)

De alguma forma, seria necessário modelar a dependência com base na sobreposição ou projetar a avaliação para que as execuções sejam independentes. Gostaria de ler a literatura de estatísticas sobre validação cruzada ;-)

phaneron
fonte
+1 Obrigado pela resposta. Hmm, entendo o que você quer dizer. Quanto mais semelhantes os conjuntos de teste, mais semelhantes serão os valores de RMSEP. OK, coloque dessa maneira o mesmo que se os dados estivessem correlacionados espacial ou temporariamente. A maneira como eu gero os conjuntos de treinamento / teste deve significar que, em média, eles são todos tão diferentes entre si. Não sei ao certo qual CV me levaria até aqui - e, de certa forma, estou fazendo isso de qualquer maneira apenas através de uma abordagem de reamostragem. Provavelmente perguntará outro Q, então, sobre como resolver o problema real.
Reinstate Monica - G. Simpson
Deixarei isso em aberto até o final do período de recompensa para ver se mais alguém morde, mas agradeço seus pensamentos aqui e aceitarei e recompensarei se não houver outras respostas por vir.
Reinstate Monica - G. Simpson