O que fazer quando alguns pontos do tempo têm respostas muito distorcidas e outros não em um estudo de medidas repetidas?

12

Normalmente, quando se encontram medidas de resultado contínuas, mas distorcidas, em um design longitudinal (digamos, com um efeito entre sujeitos), a abordagem comum é transformar o resultado em normalidade. Se a situação for extrema, como em observações truncadas, pode-se ter uma ideia e usar um modelo de curva de crescimento Tobit, ou algo assim.

Mas estou perplexo quando vejo resultados que são normalmente distribuídos em determinados momentos e depois fortemente distorcidos em outros; a transformação pode obstruir um vazamento, mas saltar outro. O que você poderia sugerir nesse caso? Existem versões "não paramétricas" de modelos de efeitos mistos que eu não conheço?

Nota: um exemplo aplicado seria a pontuação do teste de conhecimento antes / depois de uma série de intervenções educacionais. As pontuações começam normais, mas depois se agrupam no final mais alto da escala mais tarde.

Brenden Dufault
fonte
6
O exemplo é interessante porque ocorre o tempo todo. Existem transformações bem conhecidas para lidar com isso, como as transformações de poder "dobradas" de Tukey. Eles fazem pouca alteração no meio da escala e curam a distorção nas duas extremidades. Descobri que raízes e toras dobradas funcionam muito bem para comparações padronizadas de pré / pós-teste.
whuber
Obrigado Whuber . Vou analisar a abordagem de transformação dobrada.
Brenden Dufault
1
Para obter uma definição e exemplos, Brenden, consulte stats.stackexchange.com/a/10979 . Para instruções sobre seu uso, consulte os últimos capítulos do livro de Tukey, EDA .
whuber
2
Uma observação adicional - lembre-se de que são feitas suposições sobre os resíduos do modelo, não sobre as variáveis ​​reais envolvidas.
Peter Flom - Restabelece Monica

Respostas:

1

Supondo que o problema ocorra nos seus resíduos (como a distribuição da variável de resultado em si geralmente não é um problema), eu estaria procurando investigar a causa do problema, em vez de tentar "consertá-lo" por meio de uma transformação ou aplicação de uma variável. modelo não paramétrico.

Se for o caso em que parece haver uma tendência (por exemplo, progressivamente ficando mais ou menos normal) ou uma clara interrupção entre quando passa do normal para o não normal, isso sugere algum tipo de "mudança de regime". seus dados (ou seja, o mecanismo de geração de dados está mudando ao longo do tempo) ou algum tipo de problema variável ausente.

Se não houver um padrão óbvio (por exemplo, os períodos 1 e 3 parecem normais e os períodos 2 e 4 não), eu estaria procurando com muito cuidado um problema de integridade de dados.

Uma maneira simples de verificar se há uma alteração de regime é estimar o modelo usando apenas os períodos "normais" e, em seguida, re-estimar usando os outros períodos e ver qual diferença ocorre. Uma abordagem mais complicada é usar um modelo de classe latente, talvez com o tempo como uma variável concomitante.

Com relação à sua pergunta sobre modelos de efeitos mistos não paramétricos, isso depende do que você quer dizer com não paramétrico. Se você quer dizer modelos que não assumem uma variável dependente numérica, existem muitos desses modelos (por exemplo, o LIMDEP possui alguns). Além disso, lembre-se de que a violação da suposição de normalidade provavelmente só será problemática do ponto de vista de inferência se o tamanho da sua amostra for pequeno. Uma maneira de investigar isso seria tentar as várias transformações discutidas em outros comentários e respostas e verificar se isso causa algum impacto nas suas conclusões.

Tim
fonte
+1 Obrigado, Tim. Agradeço suas sugestões em relação aos modelos de classe latente e ao LIMDEP. Essas abordagens estão cada vez mais atraentes para mim quando começo a aprender mais sobre elas.
Brenden Dufault
0

Existem transformações de Box-Cox que elevam a variável a uma potência lambda em que lambda é incluída na estimativa de parâmetros do modelo. Não estou familiarizado com a transformação de poder dobrada de Tukey, então não sei se estamos falando sobre a mesma coisa. Para estimar lambda, você precisa de vários pontos no ajuste. Deseja ajustar uma distribuição diferente em cada momento em que a distribuição é definida em um conjunto de sujeitos que fazem o teste em cada momento? Mesmo se esse for o caso, se você souber que alguns pontos no tempo devem ter a mesma distribuição, convém combiná-los em um único ajuste.

Outra abordagem não paramétrica e que não envolve transformações na normalidade seria aplicar a autoinicialização em cada ponto do tempo ou em cada conjunto combinado de pontos do tempo.

Michael R. Chernick
fonte