Por que os estatísticos dizem que um resultado não significativo significa "você não pode rejeitar o nulo" em vez de aceitar a hipótese nula?

44

Os testes estatísticos tradicionais, como o teste t de duas amostras, concentram-se em tentar eliminar a hipótese de que não há diferença entre uma função de duas amostras independentes. Então, escolhemos um nível de confiança e dizemos que, se a diferença de médias estiver além do nível de 95%, podemos rejeitar a hipótese nula. Caso contrário, "não podemos rejeitar a hipótese nula". Isso parece implicar que também não podemos aceitá-lo. Isso significa que não temos certeza se a hipótese nula é verdadeira?

Agora, quero projetar um teste em que minha hipótese seja a de que a função de duas amostras seja a mesma (o oposto dos testes estatísticos tradicionais em que a hipótese é a de que as duas amostras sejam diferentes). Portanto, minha hipótese nula torna-se que as duas amostras são diferentes. Como devo projetar esse teste? Seria tão simples quanto dizer que, se o valor-p for menor que 5%, podemos aceitar a hipótese de que não há diferença significativa?

ryu576
fonte
Se a diferença de médias está além do nível de 95%, podemos rejeitar a hipótese nula. Os 95% não são um "nível"; é aqui em 95 dos 100 casos (comparações), a diferença na estatística da amostra surge devido a flutuações da amostra. significa que nulo é aceito em alfa = 0,05. Dizer que o nível de 95% não é o termo correto.
Subhash C. Davar

Respostas:

44

Tradicionalmente, a hipótese nula é um valor pontual. (Geralmente, é , mas na verdade pode ser qualquer valor em ponto.) A hipótese alternativa é que o valor verdadeiro seja qualquer valor que não seja o valor nulo . Como uma variável contínua (como uma diferença média) pode assumir um valor indefinidamente próximo do valor nulo, mas ainda não muito igual e, assim, tornar a hipótese nula falsa, uma hipótese nula de ponto tradicional não pode ser comprovada. 0 0

Imagine que sua hipótese nula é e a diferença média que você observa é 0,01 . É razoável supor que a hipótese nula é verdadeira? Você ainda não sabe; seria útil saber como é o nosso intervalo de confiança . Digamos que seu intervalo de confiança de 95% seja ( - 4,99 , 5,01 ) . Agora, devemos concluir que o valor verdadeiro é 0 ? Eu não me sentiria à vontade em dizer isso, porque o IC é muito amplo e existem muitos valores grandes, diferentes de zero, dos quais podemos razoavelmente suspeitar que sejam consistentes com nossos dados. Então, digamos que reunimos muito, muito mais dados, e agora nossa diferença média observada é 0,010 00,01(4.99, 5.01)0 00,01, mas o IC de 95% é . A diferença média observada permaneceu a mesma (o que seria incrível se realmente acontecesse), mas o intervalo de confiança agora exclui o valor nulo. Obviamente, isso é apenas um experimento mental, mas deve deixar claras as idéias básicas. Nunca podemos provar que o valor verdadeiro é qualquer valor pontual específico; só podemos (possivelmente) provar que é algum valor pontual. No teste de hipóteses estatísticas, o fato de o valor-p ser> 0,05 (e que o IC95% inclua zero) significa que não temos certeza se a hipótese nula é verdadeira .(0,005, 0,015)

Quanto ao seu caso concreto, você não pode construir um teste em que a hipótese alternativa é que a diferença média seja e a hipótese nula seja diferente de zero. Isso viola a lógica do teste de hipóteses. É perfeitamente razoável que seja sua hipótese científica substantiva, mas não pode ser sua hipótese alternativa em uma situação de teste de hipótese. 0 0

Então o que você pode fazer? Nessa situação, você usa teste de equivalência. (Você pode ler alguns de nossos tópicos sobre este tópico clicando na tag de .) A estratégia típica é usar a abordagem de testes unilaterais. Muito brevemente, você seleciona um intervalo no qual consideraria que a verdadeira diferença média também poderia ser 0 0por tudo o que você poderia se importar, execute um teste unilateral para determinar se o valor observado é menor que o limite superior desse intervalo e outro teste unilateral para ver se é maior que o limite inferior. Se ambos os testes forem significativos, você rejeitou a hipótese de que o valor verdadeiro está fora do intervalo de seu interesse. Se um (ou ambos) não for significativo, você falha em rejeitar a hipótese de que o valor verdadeiro está fora do intervalo.

Por exemplo, suponha que qualquer coisa dentro do intervalo seja tão próxima de zero que você pense que é essencialmente igual a zero para seus propósitos, e use isso como sua hipótese substantiva. Agora imagine que você obtém o primeiro resultado descrito acima. Embora 0,01(-0,02, 0,02)0,01cai dentro desse intervalo, você não seria capaz de rejeitar a hipótese nula em nenhum dos testes t unilaterais, portanto, falharia em rejeitar a hipótese nula. Por outro lado, imagine que você obteve o segundo resultado descrito acima. Agora você descobre que o valor observado cai dentro do intervalo designado e pode ser mostrado que é menor que o limite superior e maior que o limite inferior, para que você possa rejeitar o nulo. (Vale a pena notar que você pode rejeitar tanto a hipótese de que o verdadeiro valor é , e a hipótese de que o valor true se encontra fora do intervalo ( - 0,02 , 0,02 )0 0(-0,02, 0,02), que pode parecer desconcertante a princípio, mas é totalmente consistente com a lógica do teste de hipóteses.)

- Reinstate Monica
fonte
1
H0 0H0 0
1
H0 0H0 0:δ0 0δ>0 0<0 0
1
H0 0
4
δ0 0δ0 0H0 0:δ0 0
1
H0 0:δ<0 0H0 0:δ=0 0δ>0 0δ<0 0pode realmente levar a aceitar um deles (ou um resultado inconclusivo). Além disso, o teste unilateral faz mais sentido da perspectiva bayesiana. Além disso, a previsão científica deve ter uma direção. Acho que começo a pensar que o teste unilateral não é apreciado o suficiente.
Ameba diz Reinstate Monica
28

Considere o caso em que a hipótese nula é de que uma moeda tem 2 cabeças, ou seja, a probabilidade de cara é 1. Agora, os dados são o resultado de jogar uma moeda uma única vez e ver caras. Isso resulta em um valor p de 1,0, que é maior que todo alfa razoável. Isso significa que a moeda tem 2 cabeças? poderia ser, mas também poderia ser uma moeda justa e vimos cabeças devido ao acaso (aconteceria 50% das vezes com uma moeda justa). Portanto, o alto valor p neste caso diz que os dados observados são perfeitamente consistentes com o nulo, mas também são consistentes com outras possibilidades.

Assim como um veredicto "Não culpado" no tribunal pode significar que o réu é inocente, também pode ser porque o réu é culpado, mas não há provas suficientes. O mesmo ocorre com a hipótese nula que falhamos em rejeitar porque o nulo pode ser verdadeiro, ou pode ser que não tenhamos evidências suficientes para rejeitar, mesmo que sejam falsas.

Greg Snow
fonte
3
Eu gosto do exemplo "Inocente". Indo um passo adiante, reabrir casos com base em evidências de DNA que não sabíamos usar no passado e derrubar algumas condenações é um exemplo perfeito de como adicionar mais dados pode ser tudo o que é necessário para ter evidências suficientes.
Thomas Speidel
7

Ausência de evidência não é evidência de uma ausência (o título de um artigo de Altman, Bland no BMJ). Os valores-P apenas nos dão evidência de uma ausência quando os consideramos significativos. Caso contrário, eles não nos dizem nada. Portanto, ausência de evidência. Em outras palavras: não sabemos e mais dados podem ajudar.

Thomas Speidel
fonte
5

H0 0

H1H0 0

H0 0

Se tivermos duas amostras que esperamos que sejam distribuídas de forma idêntica, nossa hipótese nula é de que as amostras são iguais. Se tivermos duas amostras que esperamos ser (descontroladamente) diferentes, nossa hipótese nula é que elas são diferentes.

SomeEE
fonte
E se não tivermos expectativas ... pode ser que simplesmente não saibamos. Além disso, como a regra de decisão funcionará se quisermos rejeitar a hipótese de que as duas amostras são diferentes?
Ryu576
No caso de você não ter expectativas, mantenha os dois tipos de erros pequenos, mas isso nem sempre é possível. Você precisa de uma variável extra (como aumentar o tamanho da amostra) para fazer isso.
precisa
2
Como podemos rejeitar o nulo, mas não provar que ele é verdadeiro, o nulo geralmente é o oposto do que queremos provar ou supor que seja verdadeiro. Se acreditamos que há uma diferença, o nulo não deve haver diferença para que você possa refutar isso.
Greg Snow
@ Greg Essa é uma boa abordagem, se você souber qual deles quer ser verdadeiro, o que provavelmente é o caso usual.
precisa saber é o seguinte
1
"O que você espera" e "que eles são diferentes" não podem ser hipóteses estatísticas, porque não são quantitativas. Isso chega ao cerne da questão: a assimetria nos papéis entre as hipóteses nula e alternativa deriva da capacidade de determinar a distribuição amostral da estatística de teste sob o nulo, em comparação com a necessidade de parametrizar a distribuição pelo tamanho do efeito sob o nulo. hipótese alternativa. Também não é o caso em que "minimizamos o erro do Tipo I": isso nunca acontece (o mínimo é sempre 0). Os testes buscam um equilíbrio entre as taxas de erro do tipo I e II.
whuber