ANOVA de medidas repetidas: qual é a suposição de normalidade?

15

Estou confuso sobre a suposição de normalidade em medidas repetidas ANOVA. Especificamente, estou me perguntando que tipo de normalidade exatamente deve ser satisfeita. Ao ler a literatura e as respostas no currículo, encontrei três formulações distintas dessa suposição.

  1. A variável dependente dentro de cada condição (repetida) deve ser distribuída normalmente.

    Afirma-se frequentemente que o rANOVA possui as mesmas suposições que a ANOVA, mais a esfericidade. Essa é a alegação de de Campo estatísticas Descoberta , bem como na da Wikipedia artigo sobre o assunto e texto de Lowry .

  2. Os resíduos (diferenças entre todos os pares possíveis?) Devem ser distribuídos normalmente.

    Eu encontrei essa afirmação em várias respostas no CV ( 1 , 2 ). Por analogia do rANOVA ao teste t emparelhado , isso também pode parecer intuitivo.

  3. A normalidade multivariada deve ser satisfeita.

    A Wikipedia e essa fonte mencionam isso. Além disso, eu sei que o rANOVA pode ser trocado por MANOVA, o que pode merecer essa afirmação.

São equivalentes de alguma forma? Eu sei que normalidade multivariada significa que qualquer combinação linear dos DVs é normalmente distribuída; portanto, 3. incluiria naturalmente 2. se eu entendi o último corretamente.

Se estes não são os mesmos, qual é a suposição "verdadeira" do rANOVA? Você pode fornecer uma referência?

Parece-me que há mais suporte para a primeira reivindicação. Isso não está alinhado, no entanto, com as respostas geralmente fornecidas aqui.


Modelos mistos lineares

Devido à dica de @ utobi, agora entendo como o rANOVA pode ser reapresentado como um modelo misto linear. Especificamente, para modelar como alterações na pressão arterial com o tempo, eu modelar o valor esperado como: onde y i j são medições de pressão sanguínea, um i o sangue médio pressão do i sujeito -ésima, e t i j como o j tempo -ésimo o i sujeito -ésimo foi medido, b i

E[yij]=ai+bitij,
yijaiitijjibidenotando que a mudança na pressão arterial também é diferente entre os sujeitos. Ambos os efeitos são considerados aleatórios, uma vez que a amostra de sujeitos é apenas um subconjunto aleatório da população, o que é de interesse primário.

Finalmente, tentei pensar no que isso significa para a normalidade, mas com pouco sucesso. Parafraseando McCulloch e Searle (2001, p. 35. Eq. (2.14)):

E[yij|ai]=aiyij|aiindep. N(ai,σ2)aii.i.d. N(a,σa2)

Eu entendo que isso significa que

4. os dados de cada indivíduo precisam ser normalmente distribuídos, mas isso não é razoável para testar com poucos pontos no tempo.

Entendo a terceira expressão para dizer que

5. as médias de assuntos individuais são normalmente distribuídas. Observe que essas são outras duas possibilidades distintas além das três mencionadas acima.


McCulloch, CE e Searle, SR (2001). Modelos generalizados, lineares e mistos . Nova York: John Wiley & Sons, Inc.

Fato39
fonte
só para lhe dar uma pista. Você pode indicar o modelo rANOVA em termos de um modelo misto linear (LMM). Depois de ter um LMM, você vê imediatamente a suposição implícita de normalidade. Veja aqui ( eu.wiley.com/WileyCDA/WileyTitle/productCd-0470073713.html ) algumas teorias de LMMs
utobi
Obrigado, @utobi, pela referência que você forneceu! Na verdade, estudei seus primeiros capítulos, mas não consegui descobrir a resposta para minha pergunta. Eu o atualizei para refletir o progresso limitado que fiz.
Fato39
3
Esta parece ser uma pergunta perfeitamente boa para mim. Estou votando para deixar em aberto.
gung - Restabelece Monica
É verdade que os dados de cada indivíduo precisam ser normalmente distribuídos. Porém, se você observar o que escreveu, todos os dados individuais, uma vez que sejam modificados ( é subtraído), terão uma média de zero e a mesma variação ( σ 2 a ). Portanto, você pode assumir que todos os dados modificados surgem de uma única distribuição normal. Você pode ver os resíduos para ver como essa suposição é atendida. aiσa2
Heteroskedastic Jim

Respostas:

2

Este é o modelo ANOVA de medidas repetidas mais simples se o tratarmos como um modelo univariado:

yit=ai+bt+ϵit

ityitaibtϵit

Não precisamos fazer suposições distributivas sobre , pois elas podem entrar no modelo como efeitos fixos, variáveis ​​simuladas (ao contrário do que fazemos com modelos lineares mistos). O mesmo acontece com os bonecos do tempo. Para esse modelo, você simplesmente regride o resultado de forma longa em relação aos manequins da pessoa e aos manequins de tempo. O efeito do interesse são os manequins do tempo, o teste F que testa a hipótese nula de que b 1 = . . . = b t = 0 é o principal teste na ANOVA de medidas repetidas univariada.aiFb1=...=bt=0

Quais são as premissas necessárias para o teste se comportar adequadamente? O relevante para sua pergunta é:F

ϵitN(0,σ)these errors are normally distributed and homoskedastic

F

Se você deseja tratar as medidas repetidas ANOVA como um modelo multivariado, as suposições de normalidade podem ser diferentes e não posso expandi-las além do que você e eu vimos na Wikipedia.

Jim Heteroskedastic
fonte
0

A explicação da normalidade da ANOVA de medidas repetidas pode ser encontrada aqui:

Entendendo as premissas ANOVA de medidas repetidas para interpretação correta da saída do SPSS

Você precisa da normalidade das variáveis ​​dependentes nos resíduos (isso implica uma distribuição normal em todos os grupos, com variação comum e média dependente do grupo), como na regressão.
Como você notou, a normalidade multivariada implica que todas as combinações lineares das variáveis ​​dependentes são normalmente distribuídas, portanto é um conceito mais forte do que a normalidade de variáveis ​​únicas (31 1) No entanto, não estou convencido de que isso implique normalidade de resíduos (32), dados os resíduos são determinados por variáveis ​​independentes (grupos, na ANOVA) também. Eu concordo com você para o ponto5: você está basicamente falando sobre um efeito aleatório em nível individual com uma distribuição normal.

Federico Tedeschi
fonte
2
Federico, obrigado pela sua resposta. Eu estava ciente dessa explicação (veja meu ponto número 2 e o primeiro link do CV mencionado lá). Embora aprecie a qualidade das respostas no currículo, cheguei a respostas diferentes (conflitantes?) Para minha pergunta ao consultar fontes diferentes. Portanto, eu preferiria uma fonte que abordasse explícita ou conclusivamente as nuances que mencionei nos meus cinco pontos acima.
Fato39