Como testar a normalidade em uma ANOVA 2x2?

8

Desenho do estudo: mostrei aos participantes algumas informações sobre a elevação do nível do mar, concentrando as informações de diferentes maneiras, tanto em termos de escala de tempo quanto na magnitude de potencial aumento. Assim, eu tinha um design de 2 (Tempo: 2050 ou 2100) por 2 (Magnitude: Média ou Alta). Havia também dois grupos de controle que não receberam informações, respondendo apenas às perguntas dos meus DVs.

Perguntas: Eu sempre verifiquei a normalidade dentro das células - para a parte 2x2 deste design, isso significaria procurar normalidade dentro de 4 grupos. No entanto, ler algumas discussões aqui me fez adivinhar meus métodos.

Primeiro, li que deveria estar observando a normalidade dos resíduos. Como posso verificar a normalidade dos resíduos (no SPSS ou em outro local)? Eu tenho que fazer isso para cada um dos 4 grupos (6 incluindo os controles)?

Também li que a normalidade dentro de grupos implica a normalidade dos resíduos. Isso é verdade? (Referências da literatura?) Novamente, isso significa examinar cada uma das 4 células separadamente?

Em resumo, quais etapas você daria para determinar se seus dados (2x2) não estão violando as suposições de normalidade?

As referências são sempre apreciadas, mesmo que apenas para me apontar na direção certa.

Lee
fonte

Respostas:

6

A maioria dos pacotes de estatísticas tem maneiras de salvar resíduos do seu modelo. UsandoGLM - UNIVARIATE SPSS, você pode salvar resíduos. Isso adicionará uma variável ao seu arquivo de dados que representa o residual para cada observação.

Depois de ter seus resíduos, você pode examiná-los para ver se eles são normalmente distribuídos, homocedásticos e assim por diante. Por exemplo, você pode usar um teste formal de normalidade em sua variável residual ou, talvez mais adequadamente, plotar os resíduos para verificar se há desvios importantes da normalidade. Se você quiser examinar a homoscedasticidade, poderá obter uma trama que analise os resíduos por grupo.

Para uma ANOVA fatorial básica entre sujeitos, em que a homogeneidade da variância se mantém, a normalidade dentro das células significa normalidade de resíduos, porque seu modelo na ANOVA é prever médias de grupo. Assim, o residual é apenas a diferença entre médias de grupo e dados observados.

Resposta aos comentários abaixo:

  • Os resíduos são definidos em relação às previsões do seu modelo. Nesse caso, as previsões do seu modelo são os seus meios celulares. É uma maneira mais generalizada de pensar sobre o teste de suposição se você se concentrar em plotar os resíduos em vez de plotar células individuais, mesmo que nesse caso em particular elas sejam basicamente as mesmas. Por exemplo, se você adicionar uma covariável (ANCOVA), os resíduos seriam mais apropriados para examinar do que as distribuições nas células.
  • Para fins de examinar a normalidade, os resíduos padronizados e não padronizados fornecerão a mesma resposta. Os resíduos padronizados podem ser úteis quando você está tentando identificar dados que são mal modelados pelos dados (ou seja, um valor externo).
  • Homogeneidade de variância e homoscedasticidade significam a mesma coisa, até onde eu sei. Mais uma vez, é comum examinar essa suposição comparando as variações entre grupos / células. No seu caso, se você calcular a variação nos resíduos para cada célula ou com base nos dados brutos de cada célula, obterá os mesmos valores. No entanto, você também pode plotar resíduos no eixo y e valores previstos no eixo x. Essa é uma abordagem mais generalizada, pois também é aplicável a outras situações, como onde você adiciona covariáveis ​​ou está fazendo regressão múltipla.
  • Um ponto foi levantado abaixo de que, quando você tem heterocedasticidade (ou seja, a variação da célula varia entre as células da população) e os resíduos normalmente distribuídos dentro das células, a distribuição resultante de todos os resíduos seria não normal. O resultado seria uma distribuição mista de variáveis ​​com média de zero e diferentes variações com proporções em relação ao tamanho das células. A distribuição resultante não terá inclinação zero, mas presumivelmente teria alguma quantidade de curtose. Se você dividir os resíduos pelo desvio padrão correspondente dentro das células, poderá remover o efeito heterocedasticidade; plotar os resíduos resultantes resultaria em um teste geral de se os resíduos são normalmente distribuídos independentemente de qualquer heterocedasticidade.
Jeromy Anglim
fonte
Ah sim, eu vejo como salvá-los. Estou assumindo pelo que você diz que o que ele salva são os resíduos por grupo - ou seja, as diferenças dos valores da amostra da célula significam, e não a média geral. Devo examinar os resíduos padronizados ou não padronizados? Porém, por que examinar os resíduos se é equivalente a examinar a normalidade dentro das células? Isso é certamente mais simples. E, finalmente, você menciona a homoscedasticidade. Eu geralmente verifico a homogeneidade da variação entre as células. Isso é algo que também pode precisar de um exame de resíduos?
Lee
@ Lee Okay. Editei minha resposta para responder aos seus comentários.
Jeromy Anglim
+1, há realmente muitas informações boas aqui. Uma observação: estou tendo problemas para analisar partes do seu terceiro marcador; algumas edições podem ser úteis.
gung - Restabelece Monica
@gung Obrigado pelo feedback. Eu fiz uma pequena edição para tentar tornar o ponto 3 um pouco mais claro.
Jeromy Anglim
Obrigado; muitas ótimas informações aqui. Será difícil abandonar meu hábito de analisar a normalidade dos dados brutos (dentro das células), mas certamente considerarei os resíduos para análises futuras.
Lee
3

Apesar de muitos livros introdutórios enfatizarem, você não precisa de Normalidade. Com um tamanho de amostra modesto e a mesma variação em cada um dos grupos, isto é, homoskedasticity, a ANOVA fornecerá inferência precisa sobre as diferenças na resposta média entre os grupos. Se houver motivo para suspeitar de variação não constante - e pode muito bem haver -, erros padrão consistentes em heterocedasticidade podem ser usados.

Essas propriedades são extensões daquelas que são conhecidas pelo teste t; com variação constante, você pode usar o teste t "plain vanilla", independentemente da Normalidade (um resultado conhecido por Fisher no caminho anterior) e com variação não constante, a variação desigual também funciona bem sem Normalidade. A versão de variação desigual é equivalente ao teste de Wald que usa erros padrão consistentes em heterocedasticidade.

hóspede
fonte
O que faz você dizer que a normalidade não importa? A ANOVA e o teste t podem ser bastante sensíveis à assimetria. Se a distribuição subjacente for assimétrica, você não deve usar nenhum dos métodos para tamanhos de amostra pequenos.
MånsT
Eu ficaria muito feliz em examinar as referências que apóiam essa afirmação, particularmente as recentes. No entanto, sem essas referências, tenho que confiar na maioria dos livros didáticos.
Lee
2
Aqui está uma referência ; note que eles realmente tentam quebrar o método, com exemplos bastante extremos. Com dados menos extremos, tudo ainda funcionará em tamanhos de amostra modestos. Você também pode procurar o texto clássico de McCullagh e Nelder sobre modelos lineares (generalizados), onde eles têm o cuidado de descrever a regressão linear através de modelos de "variação constante", pois essa é a suposição que importa. Para erros padrão robustos, consulte textos introdutórios econométricos; a documentação do software STATA também é uma boa fonte.
guest