Se o teste t e a ANOVA para dois grupos são equivalentes, por que suas suposições não são equivalentes?

47

Tenho certeza de que tenho isso completamente enrolado na minha cabeça, mas simplesmente não consigo entender.

O teste t compara duas distribuições normais usando a distribuição Z. É por isso que existe uma suposição de normalidade nos DADOS.

ANOVA é equivalente à regressão linear com variáveis ​​dummy e usa somas de quadrados, assim como OLS. É por isso que existe uma suposição de normalidade dos RESIDUAIS.

Levei vários anos, mas acho que finalmente entendi esses fatos básicos. Então, por que o teste t é equivalente à ANOVA em dois grupos? Como eles podem ser equivalentes se eles nem assumem as mesmas coisas sobre os dados?

Chris Beeley
fonte
15
Um ponto: t-testes usar a distribuição t não a distribuição Z
Jeromy Anglim
1
Mesmo que a pergunta não esteja correta, é muito útil. Além disso, acho que mencionar o "teste t bicaudal" em algum lugar tornará as perguntas / respostas mais completas.
Gaurav Singhal 29/07

Respostas:

29

O teste t com dois grupos assume que cada grupo é normalmente distribuído com a mesma variância (embora as médias possam diferir sob a hipótese alternativa). Isso é equivalente a uma regressão com uma variável dummy, pois a regressão permite que a média de cada grupo seja diferente, mas não a variância. Portanto, os resíduos (iguais aos dados com as médias do grupo subtraídas) têm a mesma distribuição - ou seja, são normalmente distribuídos com média zero.

Um teste t com variações desiguais não é equivalente a uma ANOVA unidirecional.

Rob Hyndman
fonte
3
Posso procurar uma citação, mas isso é fácil o suficiente para testar empiricamente. F de uma ANOVA com dois grupos é exatamente igual a t ^ 2 e os valores de p serão exatamente os mesmos. A única razão pela qual não seria equivalente no caso de variações desiguais é se você aplicar uma correção. Caso contrário, eles são os mesmos.
Brett
3
O teste F é a generalização do teste t. O teste t é para comparação de 2 tratamentos e o teste F é para vários tratamentos. A derivação está no Statistical Design de Casella, capítulos 3 e 4. No entanto, como o professor Hyndman ressalta, com variações desiguais, não é mais um teste t. Esse é o problema de Fisher Behren. Geralmente, não usamos a solução de Fisher, em vez disso usamos o Teste de Welch ou uma abordagem bayesiana.
suncoolsu
Um teste t de duas amostras com variações desiguais é realmente igual a uma ANOVA unidirecional com dois grupos. Talvez o que você quis dizer foi que um teste t usando uma correção para variações desiguais (ou seja, Welch) não é o mesmo que uma ANOVA unidirecional que não é corrigida (mas por que elas seriam)?
Brett
20

O teste t é simplesmente um caso especial do teste F, onde apenas dois grupos estão sendo comparados. O resultado de qualquer um será exatamente o mesmo em termos de valor-p e também existe uma relação simples entre as estatísticas F e t. F = t ^ 2. Os dois testes são algebricamente equivalentes e suas suposições são as mesmas.

De fato, essas equivalências se estendem a toda a classe de ANOVAs, testes t e modelos de regressão linear. O teste t é um caso especial de ANOVA. ANOVA é um caso especial de regressão. Todos esses procedimentos são incluídos no Modelo Linear Geral e compartilham as mesmas premissas.

  1. Independência de observações.
  2. Normalidade de resíduos = normalidade em cada grupo no caso especial.
  3. Igual de variâncias de resíduos = variâncias iguais entre os grupos no caso especial.

Você pode pensar nisso como normalidade nos dados, mas está verificando a normalidade em cada grupo - o que é realmente o mesmo que verificar a normalidade nos resíduos quando o único preditor no modelo é um indicador de grupo. Da mesma forma com variâncias iguais.

Apenas como um aparte, R não possui rotinas separadas para ANOVA. As funções anova em R são apenas wrappers para a função lm () - a mesma coisa que é usada para ajustar modelos de regressão linear - empacotadas de maneira um pouco diferente para fornecer o que normalmente é encontrado em um resumo ANOVA em vez de um resumo de regressão.

Brett
fonte
Estaria interessado em saber como ajustar modelos ANOVA de medidas repetidas usando lm.
AndyF 13/08/10
1
Os problemas de codificação de variáveis ​​categóricas, a equivalência de modelos de regressão e ANOVA e a codificação de regressão para medidas repetidas são descritos neste artigo. dionysus.psych.wisc.edu/Lit/Topics/Statistics/Contrasts/… Aqui está a citação ... Wendorf, CA (2004). Primário na codificação de regressão múltipla: Formas comuns e o caso adicional de contrastes repetidos. Entendendo as Estatísticas 3, 47-57.
Brett
4
@AndyF Não lm(), a menos que você mude para modelos mistos com o pacote nlmeou lme4, mas há uma maneira prática de lidar com medições repetidas através da especificação apropriada do Errortermo aov(), veja mais detalhes no tutorial de Baron e Li, §6.9, j.mp/ c5ME4u
chl
O @AndyF aov()é construído sobre a lm()função, mas inclui argumentos adicionais, chamados Termos especiais , como Error.
chl
aov () é simplesmente um invólucro para lm (). Ele controla a codificação nos bastidores e empacota o resultado no estilo ANOVA. Tudo isso é modelado por lm (). No artigo mencionado acima, ele mostra como configurar a codificação para fazer contrastes repetidos nos modelos de regressão, incluindo lm ().
Brett
17

Concordo totalmente com a resposta de Rob, mas deixe-me colocar de outra maneira (usando a wikipedia):

Premissas ANOVA :

  • Independência de casos - esta é uma suposição do modelo que simplifica a análise estatística.
  • Normalidade - as distribuições dos resíduos são normais.
  • Igualdade (ou "homogeneidade") de variações, chamada homoscedasticidade

Teste t de premissas :

  • Cada uma das duas populações comparadas deve seguir uma distribuição normal ...
  • ... as duas populações comparadas devem ter a mesma variação ...
  • Os dados utilizados para realizar o teste devem ser amostrados independentemente das duas populações comparadas.

Por isso, refutaria a pergunta, pois elas obviamente têm as mesmas suposições (embora em uma ordem diferente :-)).

Henrik
fonte
Veja o comentário para Rob.
Alexis
@ Alexis Não sei se entendi seu voto negativo. Cuidado ao elaborar.
Henrik
A segunda suposição do teste t não é verdadeira. O trabalho original do aluno assumiu isso, mas "variações desiguais" é uma suposição bastante comum no tratamento posterior do teste.
Alexis
5

Um ponto óbvio que todo mundo ignorou: com a ANOVA, você está testando o nulo de que a média é idêntica, independentemente dos valores de suas variáveis ​​explicativas. Com um Teste-T, você também pode testar o caso unilateral, de que a média é especificamente maior, dado um valor da sua variável explicativa, do que o outro.

dsimcha
fonte
1
A menos que eu esteja enganado, isso NÃO é uma diferença. Se você fizer uma ANOVA em dois grupos, poderá fazer um "teste unilateral" da mesma forma que em um teste t. Coloquei "teste unilateral" entre aspas porque, na verdade, não há diferença no "teste" entre um "teste unilateral" e um "teste bilateral". A única diferença é como você interpreta a significância estatística dos valores-p. Portanto, os "testes" unilaterais ou bilaterais são exatamente o mesmo "teste". Somente a maneira de interpretar corretamente os resultados é diferente.
Tripartio
-3

Prefiro usar o teste t para comparar dois grupos e utilizarei ANOVA para mais de 2 grupos, por motivos. Razão importante é a suposição de variâncias iguais.

syed
fonte
5
Bem-vindo ao site, @syed. Você se importaria de expandir sua resposta? Por exemplo, a que "razões" você se refere? Note-se que tanto o teste t & ANOVA assumir variâncias iguais.
gung - Restabelece Monica