Preciso de algumas orientações sobre o nível apropriado de pool para usar em testes de diferença de médias em dados de séries temporais. Estou preocupado com a pseudo-replicação temporal e sacrificial, que parece estar em tensão nesta aplicação. Isso se refere a um estudo mensural e não a um experimento manipulador.
Considere um exercício de monitoramento : Um sistema de sensores mede o conteúdo de oxigênio dissolvido (DO) em muitos locais na largura e profundidade de uma lagoa. As medições para cada sensor são registradas duas vezes por dia, pois o DO varia de maneira diurna. Os dois valores são calculados para registrar um valor diário. Uma vez por semana, os resultados diários são agregados espacialmente para chegar a uma única concentração semanal de OD para todo o lago.
Esses resultados semanais são relatados periodicamente e agregados adicionais - os resultados semanais são calculados em média para fornecer uma concentração mensal de OD para a lagoa. Os resultados mensais são calculados para dar um valor anual. As médias anuais são elas próprias calculadas para relatar concentrações decadais de OD para a lagoa.
O objetivo é responder a perguntas como: A concentração de OD da lagoa no ano X foi maior, menor ou igual à concentração no ano Y? A concentração média de OD dos últimos dez anos é diferente da da década anterior? As concentrações de OD em uma lagoa respondem a muitas entradas de grande magnitude e, portanto, variam consideravelmente. É necessário um teste de significância. O método é usar uma comparação de médias do teste T. Dado que os valores decadais são a média dos valores anuais e os valores anuais são a média dos valores mensais, isso parece apropriado.
Aqui está a pergunta - você pode calcular as médias decadais e os valores T dessas médias a partir dos valores mensais de OD ou dos valores anuais de OD. A média não muda de rumo, mas a largura do intervalo de confiança e o valor T muda. Devido à ordem de magnitude N mais alta obtida pelo uso de valores mensais, o IC geralmente aumenta consideravelmente se você seguir esse caminho. Isso pode dar a conclusão oposta vs usar os valores anuais com relação à significância estatística de uma diferença observada nas médias, usando o mesmo teste nos mesmos dados. Qual é a interpretação adequada dessa discrepância?
Se você usar os resultados mensais para calcular as estatísticas de teste quanto a uma diferença nas médias decadais, está tendo problemas com a pseudo-replicação temporal? Se você usa os resultados anuais para calcular os testes decadais, está sacrificando informações e, portanto, pseudo-replicando?
Respostas:
Acredito que você está tentando usar métodos estatísticos adequados para observações independentes enquanto correlaciona dados, tanto temporariamente quanto espacialmente. Se você tem observações por 5 horas e decide reiterar isso como 241 observações feitas a cada minuto, você realmente não tem 240 graus de liberdade em relação à média desses 241 valores. A autocorrelação potencialmente gera um exagero do tamanho de "N" e, portanto, cria falsas declarações de incerteza. O que você precisa fazer é encontrar alguém / algum livro didático / algum site / .... para ensinar sobre dados de séries temporais e suas análises. Uma maneira de começar é GOOGLE "me ajudar a entender séries temporais" e começar a ler / aprender. Há muito material disponível na web.http://www.autobox.com/AFSUniversity/afsuFrameset.htm . Menciono isso como ainda estou associado a esta empresa e são produtos, portanto, meus comentários são "tendenciosos e opinativos", mas não apenas para servir a si mesmos.
fonte