Normalmente, quando se encontram medidas de resultado contínuas, mas distorcidas, em um design longitudinal (digamos, com um efeito entre sujeitos), a abordagem comum é transformar o resultado em normalidade. Se a situação for extrema, como em observações truncadas, pode-se ter uma ideia e usar um modelo de curva de crescimento Tobit, ou algo assim.
Mas estou perplexo quando vejo resultados que são normalmente distribuídos em determinados momentos e depois fortemente distorcidos em outros; a transformação pode obstruir um vazamento, mas saltar outro. O que você poderia sugerir nesse caso? Existem versões "não paramétricas" de modelos de efeitos mistos que eu não conheço?
Nota: um exemplo aplicado seria a pontuação do teste de conhecimento antes / depois de uma série de intervenções educacionais. As pontuações começam normais, mas depois se agrupam no final mais alto da escala mais tarde.
fonte
Respostas:
Supondo que o problema ocorra nos seus resíduos (como a distribuição da variável de resultado em si geralmente não é um problema), eu estaria procurando investigar a causa do problema, em vez de tentar "consertá-lo" por meio de uma transformação ou aplicação de uma variável. modelo não paramétrico.
Se for o caso em que parece haver uma tendência (por exemplo, progressivamente ficando mais ou menos normal) ou uma clara interrupção entre quando passa do normal para o não normal, isso sugere algum tipo de "mudança de regime". seus dados (ou seja, o mecanismo de geração de dados está mudando ao longo do tempo) ou algum tipo de problema variável ausente.
Se não houver um padrão óbvio (por exemplo, os períodos 1 e 3 parecem normais e os períodos 2 e 4 não), eu estaria procurando com muito cuidado um problema de integridade de dados.
Uma maneira simples de verificar se há uma alteração de regime é estimar o modelo usando apenas os períodos "normais" e, em seguida, re-estimar usando os outros períodos e ver qual diferença ocorre. Uma abordagem mais complicada é usar um modelo de classe latente, talvez com o tempo como uma variável concomitante.
Com relação à sua pergunta sobre modelos de efeitos mistos não paramétricos, isso depende do que você quer dizer com não paramétrico. Se você quer dizer modelos que não assumem uma variável dependente numérica, existem muitos desses modelos (por exemplo, o LIMDEP possui alguns). Além disso, lembre-se de que a violação da suposição de normalidade provavelmente só será problemática do ponto de vista de inferência se o tamanho da sua amostra for pequeno. Uma maneira de investigar isso seria tentar as várias transformações discutidas em outros comentários e respostas e verificar se isso causa algum impacto nas suas conclusões.
fonte
Existem transformações de Box-Cox que elevam a variável a uma potência lambda em que lambda é incluída na estimativa de parâmetros do modelo. Não estou familiarizado com a transformação de poder dobrada de Tukey, então não sei se estamos falando sobre a mesma coisa. Para estimar lambda, você precisa de vários pontos no ajuste. Deseja ajustar uma distribuição diferente em cada momento em que a distribuição é definida em um conjunto de sujeitos que fazem o teste em cada momento? Mesmo se esse for o caso, se você souber que alguns pontos no tempo devem ter a mesma distribuição, convém combiná-los em um único ajuste.
Outra abordagem não paramétrica e que não envolve transformações na normalidade seria aplicar a autoinicialização em cada ponto do tempo ou em cada conjunto combinado de pontos do tempo.
fonte