Um único teste estatístico pode dar evidência de que a hipótese nula (H0) é falsa e, portanto, a hipótese alternativa (H1) é verdadeira. Mas não pode ser usado para mostrar que H0 é verdadeiro porque a falha em rejeitar H0 não significa que H0 é verdadeiro.
Mas vamos supor que você tenha a possibilidade de fazer o teste estatístico várias vezes, porque você tem muitos conjuntos de dados, todos independentes um do outro. Todos os conjuntos de dados são o resultado do mesmo processo e você deseja fazer alguma declaração (H0 / H1) sobre o próprio processo e não está interessado nos resultados de cada teste. Em seguida, você coleta todos os valores p resultantes e vê através do gráfico de histograma que os valores p estão claramente distribuídos uniformemente.
Meu raciocínio agora é que isso só pode acontecer se H0 for verdadeiro - caso contrário, os valores-p seriam distribuídos de maneira diferente. Portanto, isso é evidência suficiente para concluir que H0 é verdadeiro? Ou estou perdendo aqui algo essencial, porque levei muita força de vontade para escrever "concluir que H0 é verdade", o que parece terrivelmente errado na minha cabeça.
fonte
Respostas:
Gostei da sua pergunta, mas infelizmente minha resposta é NÃO, ela não prova . O motivo é muito simples. Como você saberia que a distribuição dos valores-p é uniforme? Você provavelmente teria que executar um teste de uniformidade que retornará seu próprio valor-p e acabará com o mesmo tipo de pergunta de inferência que estava tentando evitar, apenas um passo adiante. Em vez de olhar para o valor p do original , agora você olha para o valor p de outro sobre a uniformidade da distribuição dos valores p originais.H0 0 H0 0 H′0 0
ATUALIZAR
Aqui está a demonstração. Gero 100 amostras de 100 observações da distribuição Gaussiana e Poisson e, em seguida, obtenho 100 valores de p para o teste de normalidade de cada amostra. Portanto, a premissa da pergunta é que, se os valores-p são de distribuição uniforme, isso prova que a hipótese nula está correta, o que é uma afirmação mais forte do que uma usual "falha em rejeitar" na inferência estatística. O problema é que "os valores-p são uniformes" é uma hipótese em si, que você precisa testar de alguma forma.
Na figura (primeira linha) abaixo, estou mostrando os histogramas dos valores-p de um teste de normalidade para a amostra de Guassian e Poisson, e você pode ver que é difícil dizer se um é mais uniforme que o outro. Esse foi o meu ponto principal.
A segunda linha mostra uma das amostras de cada distribuição. As amostras são relativamente pequenas, portanto você não pode ter muitos compartimentos. Na verdade, essa amostra gaussiana em particular não parece muito gaussiana no histograma.
Na terceira linha, estou mostrando as amostras combinadas de 10.000 observações para cada distribuição em um histograma. Aqui, você pode ter mais caixas e as formas são mais óbvias.
Finalmente, eu executo o mesmo teste de normalidade e obtenho valores de p para as amostras combinadas e ele rejeita a normalidade para Poisson, embora não rejeite a gaussiana. Os valores de p são: [0,45348631] [0]
Esta não é uma prova, é claro, mas a demonstração da ideia de que é melhor executar o mesmo teste na amostra combinada, em vez de tentar analisar a distribuição dos valores-p das subamostras.
Aqui está o código Python:
fonte
Sua série de experimentos pode ser vista como um único experimento com muito mais dados e, como sabemos, mais dados são vantajosos (por exemplo, erros normalmente padrão diminuem à medida quen--√ aumenta para dados independentes). Mas você pergunta: "Isso é ... evidência suficiente para concluir que H0 é verdadeiro?"
David Hume e o problema da indução
Durante séculos, todos os cisnes observados pelos europeus eram brancos. Os europeus descobriram a Austrália e viram cisnes negros.
Durante séculos, a lei da gravidade de Newton concordou com a observação e foi considerada correta. Foi derrubado pela teoria da relatividade geral de Einstein.
Uma lista (incompleta) de caminhos a seguir:
Karl Popper e falsificacionismo
Na opinião de Karl Popper , nenhuma lei científica é comprovada como verdadeira. Temos apenas leis científicas ainda não provadas falsas.
Popper argumentou que a ciência avança adivinhando hipóteses e submetendo-as a um rigoroso escrutínio. Ele prossegue através da dedução (observação comprovando teorias falsas), não da indução (observação repetida comprovando teorias verdadeiras). Muitas estatísticas freqüentistas foram construídas de acordo com essa filosofia.
A visão de Popper tem sido imensamente influente, mas, como Kuhn e outros argumentaram, ela não se conforma totalmente à prática empiricamente observada da ciência bem-sucedida.
Probabilidade bayesiana, subjetiva
Essa é uma maneira lógica de modelar suas próprias crenças subjetivas, mas não é uma maneira mágica de produzir probabilidades verdadeiras em termos de correspondência com a realidade. Uma pergunta complicada para qualquer interpretação bayesiana é de onde vêm os anteriores? Além disso, e se o modelo for mal especificado?
George P. Box
Um famoso aforismo de George EP Box é que "todos os modelos são falsos, mas alguns são úteis".
A lei de Newton pode não ser verdadeira, mas ainda é útil para muitos problemas. A visão de Box é bastante importante no contexto moderno de big data, onde os estudos são tão dominados que você pode rejeitar basicamente qualquer proposição significativa. Estritamente verdadeiro versus falso é uma pergunta ruim: o que importa é se um modelo ajuda a entender os dados.
Comentários adicionais
Talvez também seja interessante, analisar estatisticamente os resultados de vários estudos, chamado meta-análise .
Até onde você pode ir além de interpretações estatísticas estreitas é uma pergunta difícil.
fonte
Em certo sentido, você está certo (veja a curva p) com algumas pequenas advertências:
Com aplicativos realistas, você costuma ter problemas adicionais. Isso ocorre principalmente porque nenhuma pessoa / laboratório / grupo de estudo geralmente pode fazer todos os estudos necessários. Como resultado, tende-se a olhar para estudos de vários grupos, altura em que você aumentou as preocupações (por exemplo, se você tivesse feito todas as experiências relevantes, pelo menos você saberia) de subnotificação e relatórios seletivos de descobertas significativas / surpreendentes, p-hacking, testes múltiplos / correções de testes múltiplos e assim por diante.
fonte
Hipótese nula (H0): A gravidade faz com que tudo no universo caia em direção à superfície da Terra.
Hipótese alternativa (H1): Nada nunca cai.
fonte
Gravity causes everything in the universe to fall toward Earth's surface
não é a hipótese alternativaThere is at least one thing in the universe that does not fall toward the Earth's surface
e nãoNothing ever falls
?