Qual é o pior que pode acontecer quando a suposição de homoscedasticidade é violada na ANOVA?

8

Esta é uma pergunta de acompanhamento que tenho depois de revisar este post: Diferença no teste estatístico de médias para dados heterocedásticos não normais?

Para ser claro, estou perguntando de uma perspectiva pragmática (para não sugerir que respostas teóricas não sejam bem-vindas). Quando a normalidade entre os grupos está presente (diferente do título da pergunta mencionada acima), mas as variações dos grupos são substancialmente diferentes, qual é a pior coisa que um pesquisador pode observar?

Na minha experiência, o problema que mais surge com esse cenário são os padrões "estranhos" nas comparações post hoc . (Isso foi observado tanto no meu trabalho publicado, mas também em contextos pedagógicos ... feliz em fornecer detalhes sobre isso nos comentários abaixo.) O que observei é algo semelhante a isso: Você tem três grupos com . O (omnibus) dá ANOVA , e os par a par -Testes sugerem é estatisticamente significativamente diferente dos outros dois grupos ... mas e p < α t M 2 M 1 M 3M1<M2<M3p<αtM2M1M3não são estatisticamente significativamente diferentes. Parte da minha pergunta é se isso é o que os outros observaram, mas também, que outros problemas você observou em cenários comparáveis?

Uma rápida revisão dos meus textos de referência sugere que a ANOVA é bastante robusta a violações leves a moderadas do pressuposto de homoscedasticidade e, ainda mais, com amostras grandes. No entanto, essas referências não indicam especificamente (1) o que pode dar errado ou (2) o que pode acontecer com um grande número de grupos.

Gregg H
fonte
1
não sei por que o link para a pergunta original não está aparecendo (apenas mostrando como texto simples) ... também, na outra pergunta, o título diz "não normal", mas a discussão é sobre dados normais
Gregg H
É porque você incluiu HTML em sua pergunta. Basta usar as opções de formatação apresentadas na barra de ferramentas de formatação - ele formatará tudo corretamente.
Sycorax diz Restabelecer Monica
2
Você obtém asupernova
user541686

Respostas:

5

As comparações de médias de grupos com base no modelo linear geral são geralmente consideradas robustas às violações da premissa de homogeneidade de variância. Existem, no entanto, certas condições sob as quais esse definitivamente não é o caso, e uma relativamente simples é uma situação em que a suposição de homogeneidade de variância é violada e há disparidades nos tamanhos dos grupos. Essa combinação pode aumentar sua taxa de erro Tipo I ou Tipo II, dependendo da distribuição de disparidades nas variações e tamanhos das amostras entre os grupos .

Uma série de simulações simples de valores- mostrará como. Primeiro, vejamos como os valores de uma distribuição devem parecer quando o nulo for verdadeiro, a suposição de homogeneidade da variância for atendida e os tamanhos dos grupos forem iguais. Simularemos pontuações padronizadas iguais para 200 observações em dois grupos ( x e y ), executaremos um teste paramétrico e salvaremos o valor resultante (e repetiremos isso 10.000 vezes). Em seguida, traçaremos um histograma dos valores- simulados :p t p ppptpp

nSims <- 10000
h0 <-numeric(nSims)

for(i in 1:nSims){ 
x<-rnorm(n = 200, mean = 0, sd = 1) 
y<-rnorm(n = 200, mean = 0, sd = 1)  
z<-t.test(x,y, var.equal = T) 
h0[i]<-z$p.value 
}

hist(h0, main="Histogram of p-values [H0 = T, HoV = T, Cell.Eq = T]", xlab=("Observed p-value"), breaks=100)

insira a descrição da imagem aqui

A distribuição dos valores de é relativamente uniforme, como deveria ser. Mas e se fizermos o desvio padrão do grupo y 5 vezes maior que o do grupo x (isto é, a homogeneidade da variação é violada)?p

insira a descrição da imagem aqui

Ainda bastante uniforme. Mas quando combinamos a suposição violada de homogeneidade de variação com disparidades no tamanho do grupo (agora diminuindo o tamanho da amostra do grupo x para 20), encontramos grandes problemas. insira a descrição da imagem aqui

A combinação de um desvio padrão maior em um grupo e um tamanho menor no outro produz uma inflação bastante dramática em nossa taxa de erro tipo I. Mas as disparidades em ambos também podem funcionar de outra maneira. Se, em vez disso, especificarmos uma população em que o nulo é falso ( a média do grupo x é 0,4 em vez de 0) e um grupo (nesse caso, o grupo y ) tem um desvio padrão maior e maior tamanho da amostra, então podemos realmente prejudicar nosso poder de detectar um efeito real:

insira a descrição da imagem aqui

Portanto, em resumo, a homogeneidade da variância não é um problema enorme quando os tamanhos dos grupos são relativamente iguais, mas quando os tamanhos dos grupos são desiguais (como podem ser em muitas áreas da pesquisa quase experimental), a homogeneidade da variância pode realmente inflar o seu Tipo I ou II taxas de erro.

jsakaluk
fonte
4

Gregg, você quer dizer dados normais e heterocedásticos? Seu segundo parágrafo parece sugerir isso.

Adicionei uma resposta à postagem original que você mencionou, onde sugeri que, se os dados forem normais, mas heterocedásticos, o uso de mínimos quadrados generalizados fornece a abordagem mais flexível para lidar com os recursos de dados mencionados. Não explicar explicitamente esses recursos levará a resultados abaixo do ideal e possivelmente enganosos, como você observou em sua própria prática. O quão subótimo ou enganoso os resultados podem ser dependerá, em última análise, das peculiaridades de cada conjunto de dados.

Uma boa maneira de entender isso seria configurar um estudo de simulação em que você possa variar dois fatores: o número de grupos e a extensão em que a variabilidade muda entre os grupos. Em seguida, você pode acompanhar o impacto desses fatores nos resultados do teste de diferenças entre qualquer uma das médias e nos resultados de comparações post-hoc entre pares de médias ao usar a ANOVA padrão (que ignora a heterocedasticidade) versus gls (que é responsável por heterocedasticidade).

Talvez você possa iniciar seu exercício de simulação com um exemplo simples, com apenas 3 grupos, onde você mantém a variabilidade dos dois primeiros grupos iguais, mas altera a variabilidade do terceiro grupo por um fator f, em que f se torna cada vez maior. Isso permitiria ver se e quando esse terceiro grupo começa a dominar os resultados. (Para simplificar, as diferenças nos valores médios dos resultados entre cada um dos três grupos podem ser mantidas iguais, embora você possa ver como a magnitude da diferença comum brinca com a magnitude da variabilidade no terceiro grupo.)

Eu acho que seria difícil fazer uma avaliação geral do que exatamente pode dar errado quando a heterocedasticidade é ignorada, além de alertar as pessoas de que ignorar a heterocedasticidade é desaconselhada quando existem melhores métodos para lidar com ela.

Isabella Ghement
fonte
sim, o cenário aqui é para fazer referência violações apenas do pressuposto de homocedástico
Gregg H
Sim, essa postagem original foi um pouco confusa, pois mencionava a não normalidade dos dados em seu título, mas a normalidade na pergunta real. Obrigado pelo esclarecimento!
Isabella Ghement 24/03
3

Bem, para dados heterocedásticos não normais, na pior das hipóteses, você não teria nenhum significado. Considere variáveis ​​extraídas de que você obteria se estivesse obtendo retornos de dois valores mobiliários, então a ANOVA produziria um resultado inteiramente aleatório, sem correlação com a realidade. Teria uma potência zero, independentemente do tamanho da amostra.

12πσ[(r1μ1)2+(r2μ2)2+σ2]32,
Dave Harris
fonte
obrigado por isso, embora o cenário específico que eu estou interessado em aqui é para normal, mas heteroscedástico (desculpe sobre a confusão do link para a pergunta anterior)
Gregg H