Como tratar corretamente vários pontos de dados por cada sujeito

10

Atualmente, estou discutindo com alguém sobre como tratar corretamente os dados com várias medidas para cada sujeito. Nesse caso, os dados foram coletados para cada sujeito dentro de um curto período de tempo para diferentes condições dentro de cada sujeito. Todas as medidas reúnem exatamente a mesma variável, apenas múltiplas.

Uma opção agora é apenas agrupar os dados por condições e não se importar que vários pontos de dados venham de um assunto. No entanto, os pontos de dados de cada sujeito provavelmente não são completamente independentes.

A outra alternativa é, primeiro, tirar a média de todas as medidas para cada condição de cada sujeito e depois comparar as médias. No entanto, isso provavelmente afetará a significância, uma vez que, na análise final, não é levado em consideração que os meios têm menos erros.

Como você pode analisar corretamente esses dados? Isso é de alguma forma resolvido no SPSS? Em princípio, deve ser possível calcular a margem de erro ao calcular uma média e depois considerá-la na análise final, mas não acho que o SPSS esteja de alguma forma fazendo esse cálculo nas minhas costas.

LiKao
fonte
11
Esse é um projeto de medidas repetidas, de modo que cada sujeito seja executado em todas ou em várias condições? Ou, é apenas um grupo independente, ou medidas, design onde cada sujeito está em uma condição?
John
Neste projeto, cada sujeito é executado em todas as condições. No entanto, existem alguns pontos de dados que precisam ser rejeitados, porque os sujeitos falharam na tarefa em questão. É improvável que um sujeito falhe em todas as subtarefas para uma única condição (há cerca de 40 repetições por condição), portanto, muito provavelmente cada sujeito terá pontos de dados para todas as condições.
LiKao

Respostas:

9

Seria uma violação da independência "agrupar os dados por condições e não se importar que vários pontos de dados venham de um sujeito". Então isso não é possível. Uma abordagem é "tomar a média de todas as medidas para cada condição de cada sujeito e depois comparar as médias". Você poderia fazer dessa maneira, não violaria a independência, mas está perdendo algumas informações na agregação para os meios no nível de assunto.

Em face disso, isso soa como um design misto com condições entre os assuntos e vários períodos de tempo medidos dentro dos assuntos. No entanto, isso levanta a questão: por que você coletou dados em vários momentos? É esperado que o efeito do tempo ou a progressão de uma variável ao longo do tempo seja diferente entre as condições? Se a resposta for sim a uma dessas perguntas, dada a estrutura dos dados, eu esperaria que o que você está interessado seja uma ANOVA mista. A ANOVA mista dividirá a variação de assunto do SSTotal "pelas suas costas", por assim dizer. Mas se essa partição ajuda no teste de condições entre sujeitos depende de vários outros fatores.

De qualquer forma, no SPSS / PASW 18 Analise -> Modelo Linear Geral -> Medidas Repetidas. Você terá uma linha para cada assunto e uma coluna para cada ponto no tempo, além de uma como seu identificador de condição. O identificador de condição entrará na seção "entre" e as medidas repetidas serão atendidas quando você definir o fator de medida repetida.

russellpierce
fonte
Ok, é isso que eu pensei. Os vários pontos de dados por condição são coletados por dois motivos. Uma é que os dados devem ser mais confiáveis ​​dessa maneira. A outra razão é que alguns pontos de dados precisam ser descartados (os sujeitos não seguiram as instruções corretamente o tempo todo). As condições estão completamente dentro dos assuntos, portanto, não temos um projeto misto neste caso. Infelizmente, uma medida repetida está fora de questão, pois temos cerca de 40 repetições por condição em cada assunto. O alto número de repetições, no entanto, significa que perdemos muitas informações ao usar a média.
LiKao
Então eu recomendo a resposta de John. Um modelo misto é provavelmente preferível. Isso pode modelar a média e a variabilidade dentro de cada sujeito e respeitar o aninhamento. Um problema dessa análise é que os graus de liberdade 'corretos' não são claros e, portanto, os limiares para significância estatística também não são claros. Em contraste com o código fornecido por John, eu recomendaria ajustar uma inclinação aleatória para o seu efeito de condição (assuntos diferentes exibem efeitos diferentes). Eu já vi algumas simulações que sugerem que não fazer isso podem aumentar sua taxa de erro do tipo I.
russellpierce
4

O design de medidas repetidas é a maneira tradicional de lidar com isso, como o drknexus menciona. Ao fazer esse tipo de análise, você deve agregar a uma pontuação / condição / assunto. É sensível a violações de suposições de esfericidade e outros problemas. No entanto, a técnica mais moderna é usar modelagem multinível ou efeitos mistos lineares. Usando esta técnica, você não agrega os dados. Existem vários tratamentos disponíveis, mas atualmente não conheço o melhor tutorial básico. Baayen (2008) O capítulo 7 é bom. Pinheiro & Bates (2000) é muito bom, mas pelo som das coisas siga seus conselhos na introdução e leia os bits recomendados para iniciantes.

Se você deseja obter apenas um resultado no estilo ANOVA, supondo que todos os seus dados estejam em formato longo (uma linha / ponto de dados) e você tenha colunas indicando assunto, resposta (y) e uma variável de condição (x), tente olhando algo assim no R (verifique se o pacote lme4 está instalado).

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

É claro que você poderia ter muito mais condições de colunas variáveis, talvez interagindo. Então você pode alterar o comando lmer para algo como ...

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(BTW, acredito que não agregar medidas repetidas para aumentar o poder é uma falácia formal. Alguém se lembra do nome?)

John
fonte
Penso que a falácia de não agregar e usar o df do número de respostas e não do número de sujeitos é uma violação da independência. Como alternativa, (eu acho), pode-se pensar em fazer uma inferência no nível das respostas de itens individuais para um conjunto fixo de assuntos.
russellpierce