Sidak ou Bonferroni?

13

Estou usando um modelo linear generalizado no SPSS para observar as diferenças no número médio de lagartas (não normais, usando a distribuição Tweedie) em 16 espécies diferentes de plantas.

Quero executar várias comparações, mas não tenho certeza se devo usar um teste de correção Sidak ou Bonferroni. Qual é a diferença entre os dois testes? Um é melhor que o outro?

Emily
fonte
1
Eu odeio o fato de que tais correções são frequentemente necessárias com o teste de hipóteses freqüentador padrão e eu prefiro as técnicas bayesianas. Dito isto, odeio menos a correção Sidak porque parece menos ad-hoc (se você estiver disposto a aceitar a assunção de independência). Porém, isso é apenas preferência pessoal, então eu fiz um comentário em vez de uma resposta.
Michael McGowan
1
@MichaelMcGowan: Apenas curioso, mas o que você considera " ad hoc " sobre uma correção de Bonferroni?
cardeal
@ cardinal Desculpe, essa provavelmente não foi a melhor escolha de palavras. À custa de precisar de suposições mais fortes (não quero banalizar esse custo), a correção de Sidak cria um limite com um significado mais qualitativo. Não posso realmente explicar qualitativamente o que o limite representa na correção de Bonferroni além de um tipo de pior caso, de acordo com a desigualdade de Boole.
Michael McGowan
@MichaelMcGowan: Ah, ok. Entendo. Suponho que há algumas coisas qualitativas que se poderia dizer sobre Bonferroni: (a) fornece proteção garantida contra a taxa de erro familiar, independentemente da dependência entre as estatísticas individuais dos testes sob o valor nulo e (b) é a correção exatamente correta fazer quando as regiões de rejeição dos testes de hipóteses individuais são disjuntas em pares.
cardeal
1
Dois testes não são independentes se a probabilidade de um erro do tipo I para um teste se correlacionar com a do outro teste. Por exemplo, suponha que você execute uma experiência com uma condição de controle e duas condições de teste. Os dois testes que comparam cada condição de teste com a condição de controle não são independentes. Você pode ver isso considerando o que acontece se, por acaso, obtiver um valor extremo para a condição de controle. Isso tornaria os dois testes mais propensos a serem estatisticamente significativos.

Respostas:

20

Se você executar testes estatísticos independentes usando α como seu nível de significância, e o nulo for obtido em todos os casos, se você encontrará ou não 'significância' é simplesmente um empate de uma variável aleatória. Especificamente, é retirado de uma distribuição binomial com p = α e n = k . Por exemplo, se você planeja executar 3 testes usando α = 0,05 e (sem o seu conhecimento), na verdade, não há diferença em cada caso, então há 5% de chance de encontrar um resultado significativo em cada teste. Dessa forma, a taxa de erro do tipo I é mantida em αkαp=αn=kα=.05α para os testes individualmente, mas no conjunto de 3 testes a taxa de erro tipo I a longo prazo será maior. Se você acredita que é significativo agrupar / pensar nesses três testes, convém manter a taxa de erro do tipo I em para o conjunto como um todo.α , em vez de apenas individualmente. Como você deve fazer isso? Existem duas abordagens centradas na mudança do original (ou seja, α o ) para um novo valor (ie, α n e w ):ααoαnew

Bonferroni: ajuste o usado para avaliar a 'significância' de modo queα

αnew=αok

Dunn-Sidak: ajuste usandoα

αnew=1(1αo)1/k

(Observe que o Dunn-Sidak assume que todos os testes no conjunto são independentes um do outro e poderia gerar inflação de erro tipo I familiarmente se essa suposição não se mantiver.)

É importante observar que, ao realizar testes, existem dois tipos de erros que você quer evitar, Tipo I (ou seja, dizendo que não é uma diferença quando não há um) e tipo II (ou seja, dizendo que não é uma diferença quando realmente existe). Normalmente, quando as pessoas discutem esse tópico, elas apenas discutem - e parecem estar cientes / preocupadas com - erros do tipo I. Além disso, as pessoas geralmente esquecem de mencionar que a taxa de erro calculada só será válida se todos os nulos forem verdadeiros. É trivialmente óbvio que você não pode cometer um erro do tipo I se a hipótese nula for falsa, mas é importante ter esse fato explicitamente em mente ao discutir esse problema.

Eu trago isso à tona porque existem implicações desses fatos que parecem muitas vezes ignoradas. Primeiro, se , a abordagem Dunn-Sidak oferecerá maior potência (embora a diferença possa ser bastante pequena com k pequeno ) e, portanto, sempre será a preferida (quando aplicável). Em segundo lugar, deve ser usada uma abordagem de " abaixamento " . Ou seja, teste primeiro o maior efeito; se você está convencido de que o nulo não obtém nesse caso, o número máximo possível de erros do tipo I é dek>1k ; portanto, o próximo teste deve ser ajustado de acordo e assim por diante. (Isso muitas vezes faz as pessoas desconfortáveis e olhares como a pesca, mas énãok1pesca, pois os testes são independentes e você pretendia conduzi-los antes de ver os dados. Essa é apenas uma maneira de ajustar ideal.) α

O acima exposto não importa como você valoriza o tipo I em relação aos erros do tipo II. No entanto, a priori, não há razão para acreditar que os erros do tipo I sejam piores que o tipo II (apesar de todos parecerem supor isso). Em vez disso, é uma decisão que deve ser tomada pelo pesquisador e deve ser específica para essa situação. Pessoalmente, se estou executando contrastes ortogonais sugeridos teoricamente, a priori , geralmente não ajusto .α

(E, para declarar isso de novo, porque é importante, tudo isso pressupõe que os testes sejam independentes. Se os contrastes não forem independentes, como quando vários tratamentos estão sendo comparados ao mesmo controle, uma abordagem diferente de α ajuste , como o teste de Dunnett, deve ser usado.)

Repor a Monica
fonte
+1. O que você chama de abordagem "descendente" para Bonferroni é exatamente equivalente ao que é conhecido como método de Holm-Bonferroni? Se sim, então a mesma lógica aplicada a Dunn-Sidak tem um nome?
Ameba diz Reinstate Monica
1
@amoeba, sim, às vezes é chamado de "método de Holm", daí Holm-Bonferroni ou Holm-Sidak.
gung - Restabelece Monica
αα
@amoeba, executando 3 contrastes ortogonais a-priori em um estudo não é diferente de executar um contraste a priori em cada um dos três estudos diferentes. Como ninguém argumenta que você precisa de correções familiares para as últimas, não há motivo coerente para exigi-las para as primeiras. No seu outro exemplo, se o grupo de controle cair mais baixo por acaso, todos os seus cinco contrastes ficarão bem; mas é improvável que isso aconteça se você executou 5 estudos independentes. Você realmente deve usar alguma forma de ajuste ou pode usar o teste de Dunnett .
gung - Restabelece Monica
N(0,1)n=10α=0.05
ameba, diz Reinstate Monica
6

ααnα=α/n. Sidak works like this (if the test are independent): α=1(1α)1/n.

Because α/n<1(1α)1/n, the Sidak correction is a bit more powerful (i.e. you get significant results more easily) but Bonferroni is a bit simpler to handle.

If you need an even more powerful procedure you might want to use the Bonferroni-Holm procedure.

Momo
fonte
Why is Bonferroni simpler to handle?
Emily
3
I find dividing α by n algebraically simpler than calculating 1(1α)1/n, but I am lazy. Also Bonferroni does not assume indenpence hence it is "simpler" in the sense of assuming less. But you pay the price of it being more conservative.
Momo
@Momo Computers are really, really good at arithmetic, so I don't find the simplicity argument very compelling. A hundred years ago when calculations were being done by hand was a very different story of course.
Michael McGowan
+1 compared to my answer, this gets to the point quite succinctly ;-).
gung - Reinstate Monica
Haha that's what I thought you meant! Thanks so much!
Emily
5

The Sidak correction assumes the individual tests are statistically independent. The Bonferroni correction doesn't assume this.

onestop
fonte
Does that mean that the Bonferroni is simply a more conservative test?
Emily
1
Bonferroni is more conservative when both tests are appropriate. But if your tests aren't independent, you shouldn't use Sidak.
onestop
2
+1 That the Bonferroni correction doesn't require the tests to be independent is a good point that I didn't cover.
gung - Reinstate Monica
@onestop: What does it mean that the tests are independent? Could you perhaps give an example?
Gunnhild
1
The Sidak correction doesn't require independence. It only assumes the tests are not negatively dependent. Positive dependence is fine.
Bonferroni
4

Sidak and Bonferroni are so similar that you will probably get the same result regardless of which procedure you use. Bonferroni is only marginally more conservative than Sidak. For instance, for 2 comparisons and a familywise alpha of .05, Sidak would conduct each test at .0253 and Bonferroni would conduct each test at .0250.

Many commenters on this site have said that Sidak is only valid when the test statistics of your comparisons are independent. That's not true. Sidak allows slight inflation of the familywise error rate when the test statistics are NEGATIVELY dependent, but if you're doing two-sided tests, negative dependence isn't generally a concern. Under non-negative dependence, Sidak does in fact provide an upper bound on the familywise error rate. That said, there are other procedures that provide such a bound and tend to retain more statistical power than Sidak. So Sidak probably isn't the best choice.

One thing the Bonferroni procedure provides (that Sidak doesn't) is strict control of the expected number of Type I errors--the so-called "per-family error rate," which is more conservative than the familywise error rate. For more info, see: Frane, AV (2015) "Are per-family Type I error rates relevant in social and behavioral science?" Journal of Modern Applied Statistical Methods 14(1), 12-23.

Bonferroni
fonte