É possível que a ANOVA unidirecional (com grupos ou "níveis") relate uma diferença significativa quando nenhum dos testes t pares t?
Em esta resposta @whuber escreveu:
É sabido que um teste global de ANOVA F pode detectar uma diferença de médias, mesmo nos casos em que nenhum teste t individual [não ajustado em pares] de qualquer um dos pares de médias produzirá um resultado significativo.
então, aparentemente, é possível, mas eu não entendo como. Quando isso acontece e qual seria a intuição por trás de tal caso? Talvez alguém possa dar um exemplo simples de brinquedo dessa situação?
Algumas observações adicionais:
O oposto é claramente possível: a ANOVA geral pode não ser significativa, enquanto alguns dos testes t em pares relatam erroneamente diferenças significativas (isto é, seriam falsos positivos).
Minha pergunta é sobre padrão, não ajustado para comparações múltiplas de testes t. Se testes ajustados forem usados (como, por exemplo, o procedimento HSD de Tukey), é possível que nenhum deles seja significativo, mesmo que a ANOVA geral seja. Isso é abordado aqui em várias perguntas, por exemplo, como posso obter uma ANOVA geral significativa, mas sem diferenças significativas em pares com o procedimento de Tukey? e interação ANOVA significativa, mas comparações pareadas não significativas .
Atualizar. Minha pergunta originalmente se referia aos testes t pareados de duas amostras usuais . No entanto, como @whuber apontou nos comentários, no contexto ANOVA, os testes t são geralmente entendidos como contrastes post hoc usando a estimativa ANOVA da variação dentro do grupo, agrupada em todos os grupos (o que não acontece em dois - teste t de amostra). Portanto, existem duas versões diferentes da minha pergunta, e a resposta para as duas acaba sendo positiva. Ver abaixo.
fonte
Respostas:
Nota: havia algo errado com o meu exemplo original. Estupidamente, fui pego pela reciclagem silenciosa de argumentos de R. Meu novo exemplo é bastante semelhante ao meu antigo. Espero que esteja tudo certo agora.
Aqui está um exemplo que fiz que tem a ANOVA significativa no nível de 5%, mas nenhuma das 6 comparações pareadas é significativa, mesmo no nível de 5% .
Aqui estão os dados:
Aqui está a ANOVA:
Aqui estão os dois valores p de teste t de amostra (suposição de variância igual):
Com um pouco mais de brincadeira com médias de grupo ou pontos individuais, a diferença de significância pode ser mais impressionante (na medida em que eu poderia tornar o primeiro valor-p menor e o mais baixo do conjunto de seis valores-p para o teste t maior )
-
Edit: Aqui está um exemplo adicional que foi originalmente gerado com ruído sobre uma tendência, que mostra o quanto você pode melhorar se mover um pouco os pontos:
EF tem um valor de p abaixo de 3% e nenhum dos t tem um valor de p abaixo de 8%. (Para um exemplo de 3 grupos - mas com um valor p um pouco maior no F - omita o segundo grupo)
E aqui está um exemplo muito simples, se mais artificial, com 3 grupos:
(Nesse caso, a maior variação está no grupo do meio - mas, devido ao maior tamanho da amostra, o erro padrão da média do grupo ainda é menor)
Testes t de múltiplas comparações
whuber sugeriu que eu considerasse o caso de múltiplas comparações. Isso prova ser bastante interessante.
O argumento para comparações múltiplas (todas conduzidas no nível de significância original - ou seja, sem ajustar o alfa para comparações múltiplas) é um pouco mais difícil de alcançar, pois brincar com variações maiores e menores ou mais e menos df nos diferentes grupos não ajuda. da mesma maneira que nos testes t comuns de duas amostras.
No entanto, ainda temos as ferramentas para manipular o número de grupos e o nível de significância; se escolhermos mais grupos e níveis de significância menores, torna-se relativamente simples identificar casos. Aqui está um:
No entanto, o menor valor p nas comparações pareadas não é significativo que esse nível:
fonte
Resumo: acredito que isso é possível, mas muito, muito improvável. A diferença será pequena e, se acontecer, é porque uma suposição foi violada (como a homoscedasticidade da variação).
Aqui está um código que procura essa possibilidade. Observe que ele aumenta a semente em 1 cada vez que é executado, para que a semente seja armazenada (e a pesquisa através das sementes seja sistemática).
Procurando um R2 significativo e nenhum teste t não significativo, não encontrei nada até uma semente de 18.000. Procurando por um valor p mais baixo a partir de R2 do que nos testes t, obtenho um resultado em seed = 323, mas a diferença é muito, muito pequena. É possível que ajustar os parâmetros (aumentando o número de grupos?) Possa ajudar. A razão pela qual o valor p de R2 pode ser menor é que, quando o erro padrão é calculado para os parâmetros na regressão, todos os grupos são combinados; portanto, o erro padrão da diferença é potencialmente menor do que no teste t.
Gostaria de saber se violar a heterocedasticidade pode ajudar (por assim dizer). Faz. Se eu usar
Para gerar y, encontro um resultado adequado em seed = 1889, onde o valor p mínimo dos testes t é 0,061 e o valor p associado ao quadrado R é 0,046.
Se eu variar os tamanhos dos grupos (o que aumenta o efeito da violação da heterocedasticidade), substituindo a amostragem x por:
Eu obtenho um resultado significativo na semente = 531, com o valor t mínimo do teste t em 0,063 e o valor p para R2 em 0,046.
Se eu parar de correção para heterocedasticidade no t-teste, usando:
Minha conclusão é que é muito improvável que isso ocorra, e é provável que a diferença seja muito pequena, a menos que você tenha violado a suposição de homoscedasticidade na regressão. Tente executar a sua análise com uma robusta / sandwich / o que você quiser chamá-lo de correção.
fonte
É inteiramente possível:
O teste F geral testa todos os contrastes simultaneamente . Como tal, deve ser menos sensível (menos poder estatístico) aos contrastes individuais (por exemplo: um teste em pares). Os dois testes estão intimamente relacionados uns aos outros, mas eles são não relatar exatamente a mesma coisa.
Como você pode ver, a recomendação do livro de não fazer comparações planejadas, a menos que o teste F geral seja significativo, nem sempre está correta. De fato, a recomendação pode nos impedir de encontrar diferenças significativas porque o teste F geral tem menos poder do que as comparações planejadas para testar as diferenças específicas.
fonte