ANOVA com observações não independentes

11

Desculpe pelo histórico detalhado desta pergunta:

Ocasionalmente, nas investigações do comportamento animal, um experimentador está interessado na quantidade de tempo que um sujeito passa em diferentes zonas predefinidas em um aparelho de teste. Eu sempre vi esse tipo de dados analisados ​​usando ANOVA; no entanto, nunca fui totalmente convencido da validade de tais análises, uma vez que a ANOVA assume que as observações são independentes e nunca são realmente independentes nessas análises (já que mais tempo gasto em uma zona significa menos gasto em outras zonas! )

Por exemplo,

DR Smith, CD Striplin, AM Geller, RB Mailman, J. Drago, CP Lawler, M. Gallagher, Avaliação comportamental de camundongos sem receptores de dopamina D1A , Neurociência, Volume 86, Edição 1, 21 de maio de 1998, Páginas 135-146

No artigo acima, eles reduzem os graus de liberdade em 1, a fim de compensar a não independência. No entanto, não tenho certeza de como essa manipulação pode realmente melhorar essa violação das suposições da ANOVA.

Talvez um procedimento qui-quadrado possa ser mais apropriado? O que você faria para analisar dados como esse (preferência por zonas, com base no tempo gasto nas zonas)?

Obrigado!

Mike Wong
fonte

Respostas:

3

(Advertência: não sou especialista nesta área)

Se você quiser apenas falar sobre as diferenças no tempo gasto por local, envie os dados de "tempo por local" como contados em um modelo misto multinomial (consulte o pacote MCMCglmm para R), usando o assunto como efeito aleatório. o truque.

Se você quiser falar sobre as diferenças na preferência de localização ao longo do tempo, talvez seja hora do intervalo para intervalos razoáveis ​​(talvez para a resolução do seu dispositivo de temporização?), Classifique cada intervalo de acordo com a localização do mouse naquele momento (por exemplo, se houver 3 locais, cada intervalo é rotulado como 1, 2 ou 3) e, novamente, usa um modelo multinomial de efeitos mistos com o assunto como efeito aleatório, mas desta vez adiciona o intervalo como efeito fixo (embora possivelmente somente após o intervalo de fatoração, que diminui a potência, mas deve ajudar capturar não linearidades através do tempo).

Mike Lawrence
fonte
5

Mike,

Concordo que uma ANOVA baseada no tempo total provavelmente não é a abordagem correta aqui. Além disso, não estou convencido de que Chi Sqaure resolva seu problema. O qui-quadrado respeitará a idéia de que você não pode estar em dois locais ao mesmo tempo, mas não resolve o problema de que provavelmente existem dependências entre o tempo N e o tempo N + 1. Em relação a este segundo problema, vejo algumas analogias entre a sua situação e o que as pessoas encontram com os dados de rastreamento dos olhos e do mouse. Um modelo multinomial de algum tipo pode servir bem a seus propósitos. Infelizmente, os detalhes desse tipo de modelo estão além dos meus conhecimentos. Tenho certeza de que algum livro de estatísticas em algum lugar tem uma boa cartilha sobre esse tópico, mas, acima de tudo, eu gostaria de apontá-lo para:

  • Barr DJ (2008) Analisando dados visuais do 'mundo visual' usando regressão logística multinível. Journal of Memory and Language, Edição Especial: Análise de Dados Emergentes (59) pp 457-474
  • https://r-forge.r-project.org/projects/gmpm/ é uma abordagem não paramétrica para o mesmo problema que está sendo desenvolvido pelo Dr. Barr

De qualquer forma, essas duas fontes devem ser mais do que completas, porque elas aprendem a analisar o curso da posição da empresa.

russellpierce
fonte
4

Examine modelos com erros espacialmente correlacionados (e covariáveis ​​espacialmente correlacionadas). Uma breve introdução, com referências ao GeoDa , está disponível aqui . Existem muitos textos; os bons são de Noel Cressie , Robert Haining e Fotheringham et al. (o último link vai para um resumo, não para um site de livros). Algum código R está surgindo recentemente, mas não estou familiarizado com ele.

whuber
fonte
3

Vou sugerir uma resposta muito diferente da de uma ANOVA tradicional. Seja T o tempo total disponível para um animal passar em todas as zonas. Você pode definir T como a quantidade total de tempo de vigília ou algo assim. Suponha que você tenha J zonas. Então, por definição, você tem:

Soma T_j = T

Você pode normalizar o exposto dividindo os lhs e os rhs por T e obtém

Soma P_j = 1

onde P_j é a proporção de tempo que um animal passa na zona j.

Agora, a pergunta que você tem é se P_j é significativamente diferente de 1 / J para todos os j.

Você pode assumir que P_j segue uma distribuição de dirichlet e estimar dois modelos.

Modelo nulo

Defina os parâmetros da distribuição de modo que P_j = 1 / J. (Definir os parâmetros da distribuição como 1 será suficiente.)

Modelo alternativo

Defina os parâmetros da distribuição como uma função de covariáveis ​​específicas da zona. Você pode estimar os parâmetros do modelo.

Você escolheria o modelo alternativo se superar o modelo nulo em alguns critérios (por exemplo, razão de verossimilhança).


fonte