Relação entre teste omnibus e comparação múltipla?

8

Wikipedia diz

Métodos que se baseiam em um teste abrangente antes de proceder a múltiplas comparações . Normalmente, esses métodos requerem um teste de intervalo ANOVA / Tukey significativo antes de prosseguir para múltiplas comparações. Esses métodos têm controle "fraco" do erro do tipo I.

Além disso

O teste F na ANOVA é um exemplo de teste omnibus, que testa a significância geral do modelo. O teste F significativo significa que, entre as médias testadas, pelo menos duas das médias são significativamente diferentes, mas esse resultado não especifica exatamente quais são as médias diferentes umas das outras. Na verdade, as diferenças dos meios de teste foram feitas pela estatística racional quadrática F (F = MSB / MSW). Para determinar qual média difere de outra média ou qual contraste de médias é significativamente diferente, os testes Post Hoc (testes de comparação múltipla) ou planejados devem ser realizados após a obtenção de um teste F omnibus significativo. Pode-se considerar o uso da correção simples de Bonferroni ou outra correção adequada.

Portanto, um teste abrangente é usado para testar a significância geral, enquanto a comparação múltipla é descobrir quais diferenças são significativas.

Mas se eu entendi corretamente, o principal objetivo da comparação múltipla é testar a significância geral e também descobrir quais diferenças são significativas. Em outras palavras, a comparação múltipla pode fazer o que um onibus pode fazer. Então, por que precisamos de um teste de ônibus?

Tim
fonte

Respostas:

7

O objetivo dos procedimentos de múltiplas comparações não é testar a significância geral, mas testar os efeitos individuais quanto à significância enquanto controla a taxa de erro experimental. É bem possível, por exemplo, que um teste F completo seja significativo em um determinado nível, enquanto nenhum dos testes Tukey em pares é discutido aqui e aqui .

Considere um exemplo muito simples: testando se duas variáveis ​​normais independentes com variação unitária têm média zero, para que

H 1 : μ 10 μ 20

H0 0:μ1=0 0μ2=0 0
H1:μ10 0μ20 0

Teste # 1: rejeitar quando

X12+X22Fχ22-1(1-α)

Teste # 2: rejeitar quando

|X1||X2|FN-1(1-1-1-α2)

α

Lote de regiões de rejeição

O Teste 1 é um teste omnibus típico: mais poderoso que o Teste 2 quando ambos os efeitos são grandes, mas nenhum é tão grande. O Teste 2 é um teste típico de comparações múltiplas: mais poderoso que o Teste 1 quando um dos efeitos é grande e o outro pequeno, além de permitir testes independentes dos componentes individuais do nulo global.

α

(1) Execute o teste nº 1 e (a) não rejeite o nulo global ou (b) rejeite o nulo global e, em seguida (e somente neste caso) execute o teste nº 2 e (i) rejeite nenhum componente, (ii) rejeitar o primeiro componente, (ii) rejeitar o segundo componente ou (iv) rejeitar os dois componentes.

(2) Execute apenas o Teste 2 e (a) rejeite nenhum componente (falhando em rejeitar o nulo global), (b) rejeite o primeiro componente (também rejeite o nulo global), (c) rejeite o segundo componente ( rejeitando também o nulo global) ou (d) rejeite os dois componentes (rejeitando também o nulo global).

α

Scortchi - Restabelecer Monica
fonte
Obrigado! (1) O nulo global não é rejeitado se e somente se houver pelo menos um nulo individual sendo rejeitado? Portanto, vários procedimentos de comparação podem testar o nulo global, ou seja, o significado geral? (2) "mas apenas para testar efeitos individuais quanto à significância enquanto controla a taxa de erro experimental", você quer dizer que vários procedimentos de comparação podem identificar quais nulos individuais são rejeitados quando o nulo global é rejeitado?
Tim
2
(1) Isso mesmo se você riscar 'e somente se'. Poirot pode ter certeza de que há um assassino a bordo do Expresso do Oriente sem ter certeza de quem é. (Mas devo remover o ' único ' da minha resposta) (2) Sim.
Scortchi - Restabelecer Monica
Obrigado! Em (1), "se você cruzar 'e somente se'", você quer dizer que vários procedimentos de comparação podem ser usados ​​para testar o nulo global, mas comete mais erros negativos falsos do que um teste omnibus?
Tim
As taxas de erro falso negativo dependem de como o nulo está errado. Veja o exemplo que adicionei.
Scortchi - Restabelecer Monica
1

2mHEu0 0

Um teste omnibus geralmente é um nome para testar a hipótese nula global. Um requisito mínimo para um procedimento de teste múltiplo é o controle de erros sob o nulo global. Isso é conhecido como controle "FWER fraco". Mas você provavelmente não irá parar por aí - para fins de inferência em hipóteses particulares, você desejará um procedimento que ofereça controle FWER sob qualquer combinação de nulos verdadeiros. Isso é conhecido como controle "FWER forte".

JohnRos
fonte
2mkk(k-1)/2k
Penso que JohnRos quis dizer é que existem 2 ^ m combinações possíveis de hipóteses nulas verdadeiras / falsas. Por exemplo, se houver três hipóteses nulas e cada uma puder ser verdadeira (T) ou falsa (F), existem 2 ^ 3 = 8 cenários possíveis: TTT, TTF, TFT, TFF, FTT, FTF, FFT, FFF . Como isso é relevante, não tenho certeza, pois, para comparações múltiplas, estamos interessados ​​no número de testes (que é 3), não no número de combinações únicas de Ts e Fs.
Bonferroni
1

Além dos cálculos associados aos testes Pair-Wise, há outra coisa por que ANOVA é usado em vez de fazer todos os testes PAIR-WISE.

Às vezes, é possível que, embora a ANOVA rejeite a hipótese nula de que todas as médias da população sejam iguais em algum nível de confiança, mesmo assim, se você fizer todos os testes em pares (digamos LSD), poderá não encontrar pelo menos um par de meios que excede a diferença nesse nível de confiança.

Prova matemática para a afirmação acima, considerando os testes pares de LSD da FISHER

insira a descrição da imagem aqui aqui: Sp

NN(N-1)/2

N(N-1)/2

(N-1) (como é o DoF) e quadratura dos dois lados:

N/2

Portanto, mesmo que todos os testes de LSD em pares não possam rejeitar as hipóteses nulas, ainda há uma boa chance de que a ANOVA possa rejeitar as hipóteses nulas.

Portanto, a ANOVA contém mais informações do que em todos os testes pareados considerados juntos.

PS: Desculpas por usar a imagem em vez de digitar as equações.

honeybadger
fonte