Realizei uma avaliação baseada em computador de diferentes métodos de ajuste de um tipo específico de modelo usado nas ciências paleo. Eu tinha um conjunto de treinamento amplo e, por isso, aleatoriamente (amostragem aleatória estratificada), anotei um conjunto de testes. Ajustei métodos diferentes às amostras do conjunto de treinamento e, usando os m modelos resultantes, previ a resposta para as amostras do conjunto de teste e calculei um RMSEP sobre as amostras no conjunto de teste. Esta é uma corrida única .
Repeti esse processo várias vezes, cada vez que escolhi um conjunto de treinamento diferente, amostrando aleatoriamente um novo conjunto de testes.
Depois de fazer isso, quero investigar se algum dos métodos tem desempenho RMSEP melhor ou pior. Eu também gostaria de fazer várias comparações dos métodos aos pares.
Minha abordagem foi ajustar um modelo linear de efeitos mistos (LME), com um único efeito aleatório para Run . Eu usei lmer()
no pacote lme4 para ajustar meu modelo e funções do pacote multcomp para executar várias comparações. Meu modelo era essencialmente
lmer(RMSEP ~ method + (1 | Run), data = FOO)
onde method
é um fator que indica qual método foi usado para gerar as previsões do modelo para o conjunto de testes e Run
é um indicador para cada execução específica do meu "experimento".
Minha pergunta é em relação aos resíduos da LME. Dado o único efeito aleatório da execução , estou assumindo que os valores de RMSEP para essa execução estejam correlacionados até certo ponto, mas não estejam correlacionados entre as execuções, com base na correlação induzida que o efeito aleatório fornece.
Essa suposição de independência entre as execuções é válida? Se não, existe uma maneira de explicar isso no modelo LME ou devo procurar outro tipo de análise estática para responder à minha pergunta?
fonte
Respostas:
Você está essencialmente fazendo alguma forma de validação cruzada aqui para cada um de seus m métodos e, então, gostaria de ver qual método desempenho melhor. Os resultados entre as corridas serão definitivamente dependentes, pois são baseados nos mesmos dados e você se sobrepõe aos seus conjuntos de trem / teste. A questão é se isso deve importar quando você comparar os métodos.
Digamos que você executaria apenas uma execução e descobriria que um método é melhor que os outros. Você se perguntaria - isso se deve simplesmente à escolha específica do conjunto de testes? É por isso que você repete seu teste para vários conjuntos de trens / testes. Portanto, para determinar se um método é melhor que outros métodos, você executa várias vezes e em cada execução o compara com os outros métodos (você tem opções diferentes para observar o erro / classificação / etc). Agora, se você achar que um método se sai melhor na maioria das execuções, o resultado é o que é. Não sei se é útil atribuir um valor p a isso. Ou, se você deseja atribuir um valor p, pergunte-se qual é o modelo de plano de fundo aqui?
fonte
Pode realmente não entender o que você fez, mas
Sim, isso reflete o quão desafiador foi o conjunto de testes nessa execução
Não, dada a maneira como você amostrou os conjuntos de testes, alguns ficarão mais sobrepostos do que outros (definitivamente, não replicações independentes)
De alguma forma, seria necessário modelar a dependência com base na sobreposição ou projetar a avaliação para que as execuções sejam independentes. Gostaria de ler a literatura de estatísticas sobre validação cruzada ;-)
fonte