Uma limitação básica do teste de significância de hipótese nula é que ele não permite que um pesquisador colete evidências a favor do nulo ( Fonte )
Vejo essa afirmação repetida em vários lugares, mas não consigo encontrar justificativa para isso. Se realizarmos um grande estudo e não encontrarmos evidências estatisticamente significativas contra a hipótese nula , não são essas evidências para a hipótese nula?
hypothesis-testing
Atte Juvonen
fonte
fonte
Respostas:
Deixar de rejeitar uma hipótese nula é uma evidência de que a hipótese nula é verdadeira, mas pode não ser uma evidência particularmente boa e certamente não prova a hipótese nula.
Vamos fazer um pequeno desvio. Considere por um momento o velho clichê:
Não obstante sua popularidade, essa afirmação não faz sentido. Se você procurar algo e não conseguir encontrá-lo, isso é absolutamente uma evidência de que não existe. Quão boa é essa evidência depende de quão minuciosa sua pesquisa foi. Uma pesquisa superficial fornece evidências fracas; uma pesquisa exaustiva fornece fortes evidências.
Agora, voltando ao teste de hipóteses. Ao executar um teste de hipótese, você está procurando evidências de que a hipótese nula não é verdadeira. Se você não a encontrar, isso certamente é uma evidência de que a hipótese nula é verdadeira, mas quão forte é essa evidência? Para saber isso, é necessário saber qual é a probabilidade de que evidências que o levem a rejeitar a hipótese nula possam ter escapado à sua pesquisa. Ou seja, qual é a probabilidade de um falso negativo no seu teste? Isso está relacionado ao poder, , do teste (especificamente, é o complemento, 1- ).β β
Agora, o poder do teste e, portanto, a taxa de falsos negativos, geralmente depende do tamanho do efeito que você está procurando. Efeitos grandes são mais fáceis de detectar do que pequenos. Portanto, não há único para um experimento e, portanto, não há resposta definitiva para a questão de quão forte é a evidência para a hipótese nula. Em outras palavras, sempre há um tamanho de efeito pequeno o suficiente para que não seja descartado pelo experimento.β
A partir daqui, existem duas maneiras de prosseguir. Às vezes, você sabe que não se importa com um tamanho de efeito menor que um limite. Nesse caso, você provavelmente deve reformular seu experimento de modo que a hipótese nula seja de que o efeito esteja acima desse limite e, em seguida, teste a hipótese alternativa de que o efeito esteja abaixo do limite. Como alternativa, você pode usar seus resultados para definir limites para o tamanho crível do efeito. Sua conclusão seria que o tamanho do efeito está em algum intervalo, com alguma probabilidade. Essa abordagem está a um pequeno passo de um tratamento bayesiano, sobre o qual você pode querer aprender mais, se se encontrar com frequência nesse tipo de situação.
Há uma boa resposta para uma pergunta relacionada que aborda evidências de testes de ausência , que você pode achar útil.
fonte
O NHST se baseia em valores-p, que nos dizem: Dada a hipótese nula é verdadeira, qual é a probabilidade de observarmos nossos dados (ou dados mais extremos)?
Assumimos que a hipótese nula é verdadeira - é inserido no NHST que a hipótese nula é 100% correta. Pequenos valores de p nos dizem que, se a hipótese nula for verdadeira, nossos dados (ou dados mais extremos) não são prováveis.
Mas o que um grande valor p nos diz? Ele nos diz que, dada a hipótese nula, nossos dados (ou dados mais extremos) são prováveis.
De um modo geral, P (A | B) ≠ P (B | A).
Imagine que você queira usar um valor-p grande como evidência da hipótese nula. Você confiaria nesta lógica:
Se o nulo for verdadeiro, é provável que haja um alto valor de p.( Atualização: não é verdade. Veja os comentários abaixo. )Isso assume a forma mais geral:
Isso é falacioso, como pode ser visto por um exemplo:
O chão poderia muito bem estar molhado porque choveu. Ou pode ser devido a um aspersor, alguém limpando suas calhas, uma tubulação de água quebrada, etc. Exemplos mais extremos podem ser encontrados no link acima.
É um conceito muito difícil de entender. Se queremos evidências para o nulo, é necessária inferência bayesiana. Para mim, a explicação mais acessível dessa lógica é de Rouder et al. (2016). in paper Existe um almoço grátis na inferência? publicado em Topics in Cognitive Science, 8, pp. 520-547.
fonte
Para entender o que está errado com a suposição, consulte o seguinte exemplo:
Imagine um recinto em um zoológico onde você não pode ver seus habitantes. Você quer testar a hipótese de que ela é habitada por macacos, colocando uma banana na gaiola e verificando se ela desapareceu no dia seguinte. Isso é repetido N vezes para aumentar a significância estatística.
Agora você pode formular uma hipótese nula: dado que existem macacos no recinto, é muito provável que eles encontrem e comam a banana; portanto, se as bananas forem intocadas todos os dias, é muito improvável que haja macacos no interior.
Mas agora você vê que as bananas desaparecem (quase) todos os dias. Isso diz que os macacos estão lá dentro?
Claro que não, porque existem outros animais que também gostam de bananas, ou talvez um tratador atencioso retire a banana todas as noites.
Então, qual é o erro que é cometido nessa lógica? O ponto é que você não sabe nada sobre a probabilidade de as bananas desaparecerem se não houver macacos dentro. Para corroborar a hipótese nula, a probabilidade de desaparecer bananas deve ser pequena se a hipótese nula estiver errada, mas isso não precisa ser o caso. De fato, o evento pode ser igualmente provável (ou até mais provável) se a hipótese nula estiver errada.
Sem saber sobre essa probabilidade, você não pode dizer exatamente nada sobre a validade da hipótese nula. Se os tratadores retiram todas as bananas todas as noites, o experimento é completamente inútil, embora pareça à primeira vista que você corroborou a hipótese nula.
fonte
Em seu famoso artigo Por que a maioria das descobertas de pesquisas publicadas é falsa , Ioannidis usou o raciocínio bayesiano e a falácia da taxa básica para argumentar que a maioria das descobertas são falsos positivos. Em breve, a probabilidade pós-estudo de que uma hipótese específica de pesquisa é verdadeira depende - entre outras coisas - da probabilidade pré-estudo da referida hipótese (ou seja, a taxa básica).
Como resposta, Moonesinghe et al. (2007) usaram a mesma estrutura para mostrar que a replicação aumenta muito a probabilidade pós-estudo de uma hipótese ser verdadeira. Isso faz sentido: se vários estudos podem replicar uma certa descoberta, temos mais certeza de que a hipótese conjecturada é verdadeira.
Eu usei as fórmulas de Moonesinghe et al. (2007) para criar um gráfico que mostre a probabilidade pós-estudo no caso de falha na replicação de uma descoberta. Suponha que uma certa hipótese de pesquisa tenha uma probabilidade pré-estudo de ser verdadeira de 50%. Além disso, estou assumindo que todos os estudos não têm viés (irrealistas!) Têm um poder de 80% e usam um de 0,05.α
O gráfico mostra que, se pelo menos 5 em cada 10 estudos falharem em alcançar significância, nossa probabilidade pós-estudo de que a hipótese é verdadeira é quase 0. O mesmo relacionamento existe para mais estudos. Essa descoberta também faz sentido intuitivo: uma falha repetida em encontrar um efeito fortalece nossa crença de que o efeito é provavelmente falso. Esse raciocínio está alinhado com a resposta aceita pelo @RPL.
Como segundo cenário, vamos supor que os estudos tenham apenas um poder de 50% (todos os demais iguais).
Agora, a probabilidade pós-estudo diminui mais lentamente, porque todos os estudos tinham apenas pouca energia para encontrar o efeito, se ele realmente existisse.
fonte
If you have a negative, you found evidence against the null
- O que? A palavra "negativo" tem exatamente o significado oposto. Um valor p significativo é chamado de resultado "positivo"; um não significativo é um "negativo".A melhor explicação que vi para isso é de alguém cujo treinamento é em matemática.
O teste de significância de hipótese nula é basicamente uma prova por contradição: assuma , há evidência paraH0 H1 ? Se houver evidência para , rejeite e aceite . Mas se não houver evidências para , é circular dizer que é verdadeiro porque você supôs que era verdadeiro no começo.H1 H0 H1 H1 H0 H0
fonte
Se você não gosta dessa conseqüência do teste de hipóteses, mas não está preparado para dar o salto total aos métodos bayesianos, que tal um intervalo de confiança?
Suponha que você jogue uma moeda vezes e veja cabeças, o que leva a dizer que um intervalo de confiança de 95% para a probabilidade de cabeças é .42078 20913 [0.492,0.502]
Você não disse ter visto evidências de que é de fato , mas as evidências sugerem alguma confiança sobre o quão próximo pode ser .12 12
fonte
Talvez seja melhor dizer que a não rejeição de uma hipótese nula não é, por si só, evidência da hipótese nula. Depois de considerarmos a probabilidade total dos dados, que consideram mais explicitamente a quantidade de dados, os dados coletados podem fornecer suporte para os parâmetros que se enquadram na hipótese nula.
No entanto, também devemos pensar cuidadosamente sobre nossas hipóteses. Em particular, falhar em rejeitar uma hipótese nula de ponto não é uma evidência muito boa de que a hipótese nula de ponto é verdadeira. Realisticamente, ele acumula evidências de que o verdadeiro valor do parâmetro não está tão longe do ponto em questão. As hipóteses de ponto nulo são, em certa medida, construções artificiais e, na maioria das vezes, você não acredita que elas sejam exatamente verdadeiras.
Torna-se muito mais razoável falar sobre a não rejeição que suporta a hipótese nula, se você pode reverter significativamente a hipótese nula e alternativa e, ao fazê-lo, rejeitaria sua nova hipótese nula. Quando você tenta fazer isso com uma hipótese nula de ponto padrão, vê imediatamente que nunca conseguirá rejeitar seu complemento, porque sua hipótese nula invertida contém valores arbitrariamente próximos ao ponto em consideração.
Por outro lado, se você diz, por exemplo, testar a hipótese nula contra a alternativa para a média de uma distribuição normal, então, para qualquer valor verdadeiro de há um tamanho de amostra - a menos que não seja realista, o valor verdadeiro de seja ou - para o qual temos quase 100% de probabilidade que um intervalo de confiança de nível cairá completamente dentro de ou fora desse intervalo. Para qualquer tamanho de amostra finito, é claro que você pode obter intervalos de confiança que ultrapassam os limites, caso em que não é uma evidência tão forte da hipótese nula.H0:|μ|≤δ HA:|μ|>δ μ μ −δ +δ 1−α [−δ,+δ]
fonte
Depende bastante de como você está usando a linguagem. Sob a teoria da decisão de Pearson e Neyman, não é evidência para o nulo, mas você deve se comportar como se o nulo fosse verdadeiro.
A dificuldade vem do modus tollens. Os métodos bayesianos são uma forma de raciocínio indutivo e, como tal, são uma forma de raciocínio incompleto. Os métodos de hipótese nula são uma forma probabilística de modus tollens e, como tal, fazem parte do raciocínio dedutivo e, portanto, são uma forma completa de raciocínio.
Modus tollens tem a forma "se A é verdadeiro, então B é verdadeiro, e B não é verdadeiro; portanto, A não é verdadeiro". Nesta forma, seria se o nulo for verdadeiro, os dados aparecerão de uma maneira particular, eles não aparecerão dessa maneira, portanto (com algum grau de confiança) o nulo não será verdadeiro (ou pelo menos será "falsificado"). . "
O problema é que você deseja "Se A, então B e B." A partir disso, você deseja inferir A, mas isso não é válido. "Se A então B", não exclui "se não A, então B" também seja uma declaração válida. Considere a afirmação "se for um urso, pode nadar. É um peixe (não um urso)". As declarações não dizem nada sobre a capacidade de não-ursos nadar.
Probabilidade e estatística são um ramo da retórica e não um ramo da matemática. É um usuário pesado de matemática, mas não faz parte da matemática. Existe por várias razões, persuasão, tomada de decisão ou inferência. Estende a retórica a uma discussão disciplinada de evidências.
fonte
Vou tentar ilustrar isso com um exemplo.
Vamos pensar que estamos coletando amostras de uma população, com a intenção de testar sua média . Nós obtemos uma amostra com a média . Se obtivermos um valor p não significativo, também valores p não significativos se tivéssemos testado qualquer outra hipótese nula , de modo que esteja entre e . Agora, para que valor de temos evidências?μ x¯ H0:μ=μi μi μ0 x¯ μ
Além disso, quando obtemos valores-p significativos, não obtemos evidências para um , em vez disso, é uma evidência contra (que pode ser tida como evidência para , ou dependendo da situação). A natureza do teste de hipóteses não fornece evidência para algo, mas apenas contra algo, se isso acontecer.H1:μ=M H0:μ=μ0 μ≠μ0 μ<μ0 μ>μ0
fonte
Considere o pequeno conjunto de dados (ilustrado abaixo) com média , digamos que você realizou um teste bicaudal com , onde . O teste parece ser insignificante com . Isso significa que seu é verdadeiro? E se você testou contra ? Como a distribuição é simétrica, o teste retornaria um valor- semelhante . Portanto, você tem aproximadamente a mesma quantidade de evidência de que e .x¯≈0 t H0:x¯=μ μ=−0.5 p>0.05 H0 μ=0.5 t p μ=−0.5 μ=0.5
O exemplo acima mostra que pequenos valores de nos afastam da crença em e altos valores de sugerem que nossos dados são de alguma forma mais consistentes com , em comparação com . Se você realizou muitos desses testes, poderá encontrar que provavelmente são dados nossos dados e, na verdade, estaria usando uma estimativa de probabilidade semimaxima . A idéia do MLE é que você busque um valor de que maximize a probabilidade de observar os dados fornecidos , o que leva à função de probabilidadep H0 p H0 H1 μ μ μ
O MLE é uma maneira válida de encontrar a estimativa de pontos para , mas não diz nada sobre a probabilidade de observar com base nos seus dados. O que você fez foi escolher um valor único para e perguntar sobre a probabilidade de observar os dados fornecidos. Como já notado por outros, . Para encontrar , precisaríamos levar em consideração o fato de termos testado diferentes valores candidatos para . Isso leva ao teorema de Bayesμ^ μ^ μ^ f(μ|X)≠f(X|μ) f(μ|X) μ^
que em primeiro lugar, considera como provável são diferentes 's a priori (isso pode ser uniforme, o que leva a resultados consistentes com MLE) e, segundo, normaliza para o fato de que você considerados candidatos diferentes para . Além disso, se você perguntar sobre em termos probabilísticos, precisará considerá-lo como uma variável aleatória; portanto, esse é outro motivo para a adoção da abordagem bayesiana.μ μ^ μ
Concluindo, o teste de hipótese informa se é mais provável que , mas como o procedimento precisava que você assumisse que é verdadeiro e escolha um valor específico para ele. Para fazer uma analogia, imagine que seu teste é um oráculo. Se você perguntar a ela: "o chão está molhado, é possível que estivesse chovendo?" , ela responde: "sim, é possível, em 83% dos casos, quando chovia, o chão fica molhado" . Se você perguntar novamente a ela, "é possível que alguém tenha derramado a água no chão?" , ela responderá "claro, também é possível, em 100% dos casos, quando alguém derramar água no chão , ela ficará molhada"H1 H0 H0 etc. Se você solicitar alguns números, ela os entregará, mas os números não serão comparáveis . O problema é que o teste de hipótese / oracle opera em uma estrutura, onde ela pode dar respostas conclusivas apenas para as perguntas que perguntam se os dados são consistentes com alguma hipótese , e não o contrário, já que você não está considerando outras hipóteses.
fonte
Vamos seguir um exemplo simples.
Minha hipótese nula é que meus dados seguem uma distribuição normal. A hipótese alternativa é que a distribuição para meus dados não é normal.
Eu desenho duas amostras aleatórias de uma distribuição uniforme em [0,1]. Não posso fazer muito com apenas duas amostras, portanto, não seria capaz de rejeitar minha hipótese nula.
Isso significa que posso concluir que meus dados seguem a distribuição normal? Não, é uma distribuição uniforme !!
O problema é que eu assumi a normalidade em minha hipótese nula. Portanto, não posso concluir que minha suposição está correta porque não posso rejeitá-la.
fonte
Rejeitar requer que seu estudo tenha poder estatístico suficiente . Se você é capaz de rejeitar , pode dizer que reuniu dados suficientes para tirar uma conclusão.H0 H0
Por outro lado, não rejeitar não requer nenhum dado, pois é assumido como verdadeiro por padrão. Portanto, se seu estudo não rejeitar , é impossível saber qual é mais provável: é verdadeiro ou seu estudo simplesmente não era grande o suficiente .H 0 H 0H0 H0 H0
fonte
Não, não é evidência, a menos que você tenha evidência de que é evidência. Não estou tentando ser fofo, é literal. Você só tem probabilidade de ver esses dados, considerando que o nulo é verdadeiro. Isso é tudo o que você obtém do valor-p (se isso, uma vez que o valor-p é baseado nas próprias suposições).
Você pode apresentar um estudo que mostre que, para estudos que "falham" em apoiar a hipótese nula, a maioria das hipóteses nulas acaba sendo verdadeira? Se você encontrar esse estudo, sua falha em refutar as hipóteses nulas pelo menos reflete uma probabilidade MUITO generalizada de que o nulo é verdadeiro. Aposto que você não tem esse estudo. Como você não prova que as hipóteses nulas são verdadeiras com base em valores-p, basta sair de mãos vazias.
Você começou assumindo que seu nulo era verdadeiro para obter esse valor-p; portanto, o valor-p não pode dizer nada sobre o nulo, apenas sobre os dados. Pense sobre isso. É uma inferência unidirecional - ponto final.
fonte