Por que as suposições da ANOVA (igualdade de variância, normalidade de resíduos) são importantes?

15

Ao executar uma ANOVA, somos informados de que certas suposições do teste devem estar presentes para que seja aplicável aos dados. Eu nunca entendi o motivo pelo qual as seguintes suposições eram necessárias para o teste funcionar:

  1. A variação de sua variável dependente (resíduos) deve ser igual em cada célula do design

  2. Sua variável dependente (resíduos) deve ser distribuída aproximadamente normalmente para cada célula do design

Entendo que existe um pouco de uma área cinzenta para saber se essas suposições precisam ser atendidas, mas, por uma questão de argumento, se essas suposições não foram totalmente atendidas em um determinado conjunto de dados, qual seria o problema com o uso de uma ANOVA ?

PaperRockBazooka
fonte
qual é o objetivo do seu estudo?
Subhash C. Davar

Respostas:

8

As premissas são importantes na medida em que afetam as propriedades dos testes de hipóteses (e intervalos) que você pode usar cujas propriedades distributivas sob o valor nulo são calculadas com base nessas premissas.

Em particular, para testes de hipóteses, o que nos interessa é saber até que ponto o verdadeiro nível de significância pode estar do que queremos que seja e se o poder contra alternativas de interesse é bom.

Em relação às suposições que você pergunta sobre:

1. Igualdade de variância

A variação de sua variável dependente (resíduos) deve ser igual em cada célula do design

Isso certamente pode afetar o nível de significância, pelo menos quando o tamanho da amostra é desigual.

(Editar :) Uma estatística F da ANOVA é a razão de duas estimativas de variação (o particionamento e a comparação de variações é por isso que é chamada de análise de variação) O denominador é uma estimativa da variação de erro supostamente comum a todas as células (calculada a partir de resíduos), enquanto o numerador, com base na variação nas médias do grupo, terá dois componentes, um da variação na média da população e um devido à variação do erro. Se o nulo for verdadeiro, as duas variações que estão sendo estimadas serão as mesmas (duas estimativas da variação de erro comum); esse valor comum, mas desconhecido, é cancelado (porque fizemos uma relação), deixando uma estatística F que depende apenas das distribuições dos erros (que, de acordo com as suposições que podemos mostrar, possui uma distribuição F. (Comentários semelhantes se aplicam ao t- teste que usei para ilustração.)

[Há um pouco mais de detalhes em algumas dessas informações na minha resposta aqui ]

No entanto, aqui as duas variações populacionais diferem nas duas amostras de tamanhos diferentes. Considere o denominador (da estatística F na ANOVA e da estatística t em um teste t) - ele é composto de duas estimativas de variância diferentes, não uma, portanto, não terá a distribuição "correta" (um chi em escala -square para F e sua raiz quadrada no caso de at - tanto a forma quanto a escala são questões).

Como resultado, a estatística F ou a estatística t não terá mais a distribuição F ou t, mas a maneira pela qual ela é afetada é diferente dependendo se a amostra grande ou menor foi extraída da população com a maior variação. Por sua vez, isso afeta a distribuição dos valores-p.

Sob o nulo (ou seja, quando as médias da população são iguais), a distribuição dos valores-p deve ser distribuída uniformemente. No entanto, se as variações e os tamanhos da amostra forem desiguais, mas as médias forem iguais (portanto, não queremos rejeitar o nulo), os valores de p não serão distribuídos uniformemente. Fiz uma pequena simulação para mostrar o que acontece. Neste caso, usei apenas 2 grupos, portanto a ANOVA é equivalente a um teste t de duas amostras com a suposição de variância igual. Então simulei amostras de duas distribuições normais, uma com desvio padrão dez vezes maior que a outra, mas com médias iguais.

Para o gráfico do lado esquerdo, o desvio padrão maior ( população ) foi para n = 5 e o desvio padrão menor foi para n = 30. Para o gráfico do lado direito, o desvio padrão maior foi com n = 30 e o menor com n = 5. Simulei cada uma 10000 vezes e encontrei o valor p de cada vez. Em cada caso, você deseja que o histograma seja completamente plano (retangular), pois isso significa que todos os testes realizados em algum nível de significância obtêm realmente a taxa de erro do tipo I. Em particular, é mais importante que as partes mais à esquerda do histograma fiquem próximas à linha cinza:α

Histogramas de valores p para amostras simuladas

Como vemos, no gráfico do lado esquerdo (maior variação na amostra menor), os valores de p tendem a ser muito pequenos - rejeitaríamos a hipótese nula com muita frequência (quase metade do tempo neste exemplo), mesmo que o nulo seja verdadeiro . Ou seja, nossos níveis de significância são muito maiores do que solicitamos. No gráfico do lado direito, vemos que os valores de p são geralmente grandes (e, portanto, nosso nível de significância é muito menor do que o solicitado) - na verdade, nem uma vez a cada dez mil simulações rejeitamos no nível de 5% (o menor o valor de p aqui foi de 0,055). [Isso pode não parecer algo tão ruim, até lembrarmos que também teremos um poder muito baixo para acompanhar nosso nível de significância muito baixo.]

Isso é uma consequência. É por isso que é uma boa idéia usar um teste t do tipo Welch-Satterthwaite ou ANOVA quando não temos um bom motivo para supor que as variações serão próximas da mesma - em comparação, ele mal é afetado nessas situações (eu simulei também este caso; as duas distribuições de valores-p simulados - que eu não mostrei aqui - saíram bem próximas do normal).

2. Distribuição condicional da resposta (DV)

Sua variável dependente (resíduos) deve ser distribuída aproximadamente normalmente para cada célula do design

Isso é um pouco menos diretamente crítico - para desvios moderados da normalidade, o nível de significância não é muito afetado em amostras maiores (embora o poder possa ser!).

nn

histogramas de valores p quando H0 é verdadeiro, mas as distribuições em cada grupo são exponenciais

Vemos que em n = 5 existem substancialmente muito poucos valores de p (o nível de significância para um teste de 5% seria cerca da metade do que deveria ser), mas em n = 50 o problema é reduzido - para 5% Neste caso, o verdadeiro nível de significância é de cerca de 4,5%.

Portanto, podemos ficar tentados a dizer "bem, tudo bem, se n for grande o suficiente para que o nível de significância fique bem próximo", mas também podemos estar lançando uma maneira de bastante poder. Em particular, sabe-se que a eficiência relativa assintótica do teste t em relação às alternativas amplamente utilizadas pode chegar a 0. Isso significa que melhores opções de teste podem obter o mesmo poder com uma fração muito pequena do tamanho da amostra necessária para obtê-lo com o teste t. Você não precisa de nada fora do comum para precisar mais do que dizer duas vezes mais dados para ter o mesmo poder com o que você precisaria com um teste alternativo - caudas moderadamente mais pesadas do que o normal na distribuição da população e amostras moderadamente grandes podem ser suficientes para fazê-lo.

(Outras opções de distribuição podem aumentar o nível de significância do que deveria ser ou substancialmente mais baixo do que vimos aqui.)

Glen_b -Reinstate Monica
fonte
Obrigado Glen pela resposta detalhada. Estou curioso para saber por que os erros que você descreveu ocorreriam se as suposições não fossem atendidas. Em termos de igualdade de variância, estou correto ao retirar da sua redação o seguinte ?: O problema decorrente de um grupo de tamanho de amostra menor ter o maior variação é (assim como o número de pontos de dados é pequeno em geral, ou seja, n = 5) que a maior variação observada na amostra menor está sendo calculada como representativa da variação no nível da população.
precisa saber é o seguinte
(parte 2) É essencialmente uma comparação injusta entre uma amostra representativa e uma amostra sub-representativa (relativamente falando) que pode levar a um erro do tipo 1 devido à forma como a ANOVA é processada.
precisa saber é o seguinte
@ Paper Não acho que essa seja a questão aqui. Não é a representatividade da variação da amostra na amostra menor (por exemplo, se as duas amostras forem igualmente pequenas, você teria o dobro do problema com a representatividade, mas esse problema estaria ausente). Adicionei alguns parágrafos à minha resposta para explicar como o problema surge com mais detalhes.
Glen_b -Reinstala Monica
4

Em poucas palavras, a ANOVA está adicionando , esquadrando e calculando a média de resíduos . Os resíduos informam o quão bem o seu modelo se ajusta aos dados. Para este exemplo, usei o PlantGrowthconjunto de dados em R:

Resultados de um experimento para comparar os rendimentos (medidos pelo peso seco das plantas) obtidos sob um controle e duas condições de tratamento diferentes.

Este primeiro gráfico mostra a grande média dos três níveis de tratamento:

insira a descrição da imagem aqui

As linhas vermelhas são os resíduos . Agora, ao quadrado e adicionando o comprimento dessas linhas individuais, você obterá um valor que informa como a média (nosso modelo) descreve os dados. Um número pequeno indica que a média descreve bem seus pontos de dados, e um número maior indica que a média descreve seus dados não tão bem. Esse número é chamado de soma total de quadrados :

SStotumaeu=(xEu-x¯grumand)2xEux¯grumand

Agora você faz o mesmo com os resíduos em seu tratamento ( somas residuais de quadrados , que também é conhecido como ruído nos níveis de tratamento):

insira a descrição da imagem aqui

E a fórmula:

SSresEudvocêumaeus=(xEuk-x¯k)2xEukEukx¯k

Por fim, precisamos determinar o sinal nos dados, conhecido como Modelo de soma de quadrados , que serão usados ​​posteriormente para calcular se os meios de tratamento são diferentes da média geral:

insira a descrição da imagem aqui

E a fórmula:

SSmodeeu=nk(x¯k-x¯grumand)2nknkx¯kx¯grumand

Agora, a desvantagem das somas de quadrados é que elas aumentam à medida que o tamanho da amostra aumenta. Para expressar essas somas de quadrados em relação ao número de observação no conjunto de dados, você as divide por seus graus de liberdade, transformando-as em variações. Portanto, depois de quadrar e adicionar seus pontos de dados, você agora faz a média deles usando seus graus de liberdade:

dftotumaeu=(n-1)

dfresEudvocêumaeu=(n-k)

dfmodeeu=(k-1)

nk

Isso resulta no quadrado médio do modelo e no quadrado médio residual (ambos são variações) ou na relação sinal / ruído, conhecida como valor F:

MSmodeeu=SSmodeeudfmodeeu

MSresEudvocêumaeu=SSresEudvocêumaeudfresEudvocêumaeu

F=MSmodeeuMSresEudvocêumaeu

O valor F descreve a relação sinal / ruído ou se os meios de tratamento são diferentes da média geral. O valor F é agora usado para calcular valores de p e eles decidirão se pelo menos um dos meios de tratamento será significativamente diferente da média geral ou não.

Agora espero que você possa ver que as suposições são baseadas em cálculos com resíduos e por que são importantes. Como adicionamos , calculamos e calculamos a média de resíduos, devemos garantir que, antes de fazer isso, os dados nesses grupos de tratamento se comportem de maneira semelhante , ou então o valor F pode ser enviesado em algum grau e as inferências extraídas desse valor F podem não é válido.

Editar: adicionei dois parágrafos para abordar a questão 2 e 1 do OP, mais especificamente .

Suposição de normalidade : a média (ou valor esperado) é frequentemente usada nas estatísticas para descrever o centro de uma distribuição, no entanto, não é muito robusta e é facilmente influenciada por valores discrepantes. A média é o modelo mais simples que podemos ajustar aos dados. Como na ANOVA estamos usando a média para calcular os resíduos e as somas dos quadrados (veja as fórmulas acima), os dados devem ser distribuídos aproximadamente normalmente (suposição de normalidade). Se não for esse o caso, a média pode não ser o modelo apropriado para os dados, pois não nos forneceria uma localização correta do centro da distribuição da amostra. Em vez disso, poderia usar a mediana, por exemplo (consulte procedimentos de teste não paramétricos).

Suposição de homogeneidade de variância : Mais tarde, quando calculamos os quadrados médios (modelo e residual), estamos agrupando as somas de quadrados individuais dos níveis de tratamento e calculando a média delas (ver fórmulas acima). Ao agrupar e calcular a média, estamos perdendo as informações das variações individuais do nível de tratamento e sua contribuição para os quadrados médios. Portanto, devemos ter aproximadamente a mesma variação entre todos os níveis de tratamento, para que a contribuição para os quadrados médios seja semelhante. Se as variações entre esses níveis de tratamento forem diferentes, os quadrados médios resultantes e o valor F serão enviesados ​​e influenciarão o cálculo dos valores p, tornando questionáveis ​​as inferências extraídas desses valores p (consulte também o comentário de @whuber e Resposta de @Glen_b).

É assim que eu vejo por mim mesmo. Pode não ser 100% exato (não sou um estatístico), mas me ajuda a entender por que é importante satisfazer as suposições da ANOVA.

Stefan
fonte
FFFFF
FF
Obrigado Stefan. Quero ver se estou entendendo você corretamente. A ANOVA cria essencialmente uma média geral de todos os pontos de dados do conjunto e compara a distância que cada grupo difere dessa média geral para entender se há uma diferença estatisticamente significativa entre eles. Se os pressupostos discutidos não são cumpridas, a média geral não é muito reflexivo dos grupos que estão sendo comparados e isso leva a uma dificuldade de comparação
PaperRockBazooka
SStotumaeuSSresEudvocêumaeuSSmodeeu) para determinar a relação sinal / ruído. Tente calcular manualmente uma ANOVA unidirecional simples. Isso me ajudou a entender melhor.
Stefan
0

ANOVA é apenas um método, calcula o teste F de suas amostras e o compara com a distribuição F. Você precisa de algumas suposições para decidir o que deseja comparar e calcular os valores-p.

Se você não atender a essas premissas, poderá calcular outras coisas, mas não será uma ANOVA.

A distribuição mais útil é a distribuição normal (por causa do CLT), é por isso que é a mais usada. Se seus dados não são normalmente distribuídos, você precisa pelo menos saber qual é a sua distribuição para calcular algo.

A homocedasticidade é uma suposição comum também na análise de regressão, apenas facilita as coisas. Precisamos de algumas suposições para começar.

Se você não possui homoscedasticidade, pode tentar transformar seus dados para alcançá-lo.

Sabe-se que o teste F da ANOVA é quase ideal no sentido de minimizar erros falsos negativos para uma taxa fixa de erros falsos positivos

skan
fonte
"ANOVA" refere-se ao processo de decompor somas de quadrados em componentes interpretáveis. Independentemente das premissas distributivas, uma ANOVA é uma ANOVA.
whuber