Uma distribuição uniforme de muitos valores p fornece evidência estatística de que H0 é verdadeiro?

28

Um único teste estatístico pode dar evidência de que a hipótese nula (H0) é falsa e, portanto, a hipótese alternativa (H1) é verdadeira. Mas não pode ser usado para mostrar que H0 é verdadeiro porque a falha em rejeitar H0 não significa que H0 é verdadeiro.

Mas vamos supor que você tenha a possibilidade de fazer o teste estatístico várias vezes, porque você tem muitos conjuntos de dados, todos independentes um do outro. Todos os conjuntos de dados são o resultado do mesmo processo e você deseja fazer alguma declaração (H0 / H1) sobre o próprio processo e não está interessado nos resultados de cada teste. Em seguida, você coleta todos os valores p resultantes e vê através do gráfico de histograma que os valores p estão claramente distribuídos uniformemente.

Meu raciocínio agora é que isso só pode acontecer se H0 for verdadeiro - caso contrário, os valores-p seriam distribuídos de maneira diferente. Portanto, isso é evidência suficiente para concluir que H0 é verdadeiro? Ou estou perdendo aqui algo essencial, porque levei muita força de vontade para escrever "concluir que H0 é verdade", o que parece terrivelmente errado na minha cabeça.

Leander Moesinger
fonte
1
Você pode estar interessado na minha resposta para uma pergunta diferente stats.stackexchange.com/questions/171742/…, que tem alguns comentários sobre as hipóteses aqui.
Mdewey
H0 é falso por sua definição.
Joshua
1
Em uma nota lateral, a razão pela qual eu tenho tantos testes (e não apenas combinei todos os dados em um único) é que meus dados estão espacialmente distribuídos ao redor do mundo e eu queria ver se há padrões espaciais no valores p (não existem, mas, se houver, isso significaria que a independência é violada ou que H0 / H1 é verdadeiro em diferentes partes do globo). Não incluí isso no texto da pergunta, porque queria mantê-lo geral.
Leander Moesinger 13/11/19

Respostas:

22

Gostei da sua pergunta, mas infelizmente minha resposta é NÃO, ela não prova . O motivo é muito simples. Como você saberia que a distribuição dos valores-p é uniforme? Você provavelmente teria que executar um teste de uniformidade que retornará seu próprio valor-p e acabará com o mesmo tipo de pergunta de inferência que estava tentando evitar, apenas um passo adiante. Em vez de olhar para o valor p do original , agora você olha para o valor p de outro sobre a uniformidade da distribuição dos valores p originais.H0H0H0

ATUALIZAR

Aqui está a demonstração. Gero 100 amostras de 100 observações da distribuição Gaussiana e Poisson e, em seguida, obtenho 100 valores de p para o teste de normalidade de cada amostra. Portanto, a premissa da pergunta é que, se os valores-p são de distribuição uniforme, isso prova que a hipótese nula está correta, o que é uma afirmação mais forte do que uma usual "falha em rejeitar" na inferência estatística. O problema é que "os valores-p são uniformes" é uma hipótese em si, que você precisa testar de alguma forma.

Na figura (primeira linha) abaixo, estou mostrando os histogramas dos valores-p de um teste de normalidade para a amostra de Guassian e Poisson, e você pode ver que é difícil dizer se um é mais uniforme que o outro. Esse foi o meu ponto principal.

A segunda linha mostra uma das amostras de cada distribuição. As amostras são relativamente pequenas, portanto você não pode ter muitos compartimentos. Na verdade, essa amostra gaussiana em particular não parece muito gaussiana no histograma.

Na terceira linha, estou mostrando as amostras combinadas de 10.000 observações para cada distribuição em um histograma. Aqui, você pode ter mais caixas e as formas são mais óbvias.

Finalmente, eu executo o mesmo teste de normalidade e obtenho valores de p para as amostras combinadas e ele rejeita a normalidade para Poisson, embora não rejeite a gaussiana. Os valores de p são: [0,45348631] [0]

insira a descrição da imagem aqui

Esta não é uma prova, é claro, mas a demonstração da ideia de que é melhor executar o mesmo teste na amostra combinada, em vez de tentar analisar a distribuição dos valores-p das subamostras.

Aqui está o código Python:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()
Aksakal
fonte
2
@LeanderMoesinger, você fará um ponto mais forte coletando todos os seus testes em um. Suponha que você tenha uma amostra com 100 observações e obtenha um valor-p; obtenha 99 amostras adicionais e termine com 100 valores de p. Em vez disso, você pode executar uma amostra de 10.000 observações e obter um valor-p, mas será mais convincente.
Aksakal
1
@LeanderMoesinger, é provável que não seja pequeno
Aksakal
1
Sua resposta não aborda a questão, ele não perguntou sobre provas, mas sobre evidências .
Carlos Cinelli
3
@CarlosCinelli, ele terá um monte de valores-p, que ele alegaria serem uniformes. Como isso é uma evidência, a menos que ele prove que os valores são uniformes? É disso que estou falando.
Aksakal
2
@ Akksakal, trata-se de matemática, um evento observado (como uma sequência de valores-p) pode não constituir evidência de algo, mas o motivo não segue logicamente o seu argumento.
Carlos Cinelli
21

Sua série de experimentos pode ser vista como um único experimento com muito mais dados e, como sabemos, mais dados são vantajosos (por exemplo, erros normalmente padrão diminuem à medida que n aumenta para dados independentes). Mas você pergunta: "Isso é ... evidência suficiente para concluir que H0 é verdadeiro?"

H0H0

David Hume e o problema da indução

H0H0

aA[aB]

  • Durante séculos, todos os cisnes observados pelos europeus eram brancos. Os europeus descobriram a Austrália e viram cisnes negros.

  • Durante séculos, a lei da gravidade de Newton concordou com a observação e foi considerada correta. Foi derrubado pela teoria da relatividade geral de Einstein.

H0

Uma lista (incompleta) de caminhos a seguir:

Karl Popper e falsificacionismo

Na opinião de Karl Popper , nenhuma lei científica é comprovada como verdadeira. Temos apenas leis científicas ainda não provadas falsas.

Popper argumentou que a ciência avança adivinhando hipóteses e submetendo-as a um rigoroso escrutínio. Ele prossegue através da dedução (observação comprovando teorias falsas), não da indução (observação repetida comprovando teorias verdadeiras). Muitas estatísticas freqüentistas foram construídas de acordo com essa filosofia.

A visão de Popper tem sido imensamente influente, mas, como Kuhn e outros argumentaram, ela não se conforma totalmente à prática empiricamente observada da ciência bem-sucedida.

Probabilidade bayesiana, subjetiva

θ

θθθP(θ)P(θX)θX. Como você se comporta em várias situações tem alguma correspondência com essas probabilidades subjetivas.

Essa é uma maneira lógica de modelar suas próprias crenças subjetivas, mas não é uma maneira mágica de produzir probabilidades verdadeiras em termos de correspondência com a realidade. Uma pergunta complicada para qualquer interpretação bayesiana é de onde vêm os anteriores? Além disso, e se o modelo for mal especificado?

George P. Box

Um famoso aforismo de George EP Box é que "todos os modelos são falsos, mas alguns são úteis".

A lei de Newton pode não ser verdadeira, mas ainda é útil para muitos problemas. A visão de Box é bastante importante no contexto moderno de big data, onde os estudos são tão dominados que você pode rejeitar basicamente qualquer proposição significativa. Estritamente verdadeiro versus falso é uma pergunta ruim: o que importa é se um modelo ajuda a entender os dados.

Comentários adicionais

θ0

Talvez também seja interessante, analisar estatisticamente os resultados de vários estudos, chamado meta-análise .

Até onde você pode ir além de interpretações estatísticas estreitas é uma pergunta difícil.

Matthew Gunn
fonte
Esta foi uma leitura interessante e deu algumas coisas boas para se pensar! Eu gostaria de poder aceitar várias respostas.
Leander Moesinger 13/11/19
Bastante explicação. Meu prof uma vez resumiu Kuhn no espírito de Popper: "avanços da ciência do funeral para o funeral
skrubber
Kuhn, etc, é famoso por interpretar Popper quando afirma que suas observações não coincidem com o modo como a ciência é feita. Isto é conhecido como falsificacionismo nativa, e é não o que Popper (mais tarde) apresentadas. É um homem de palha.
Konrad Rudolph
2
São respostas como essa que eu continuo visitando nos sites StackExchange.
Trilarion
5

Em certo sentido, você está certo (veja a curva p) com algumas pequenas advertências:

  1. pααH0
  2. H0H0

Com aplicativos realistas, você costuma ter problemas adicionais. Isso ocorre principalmente porque nenhuma pessoa / laboratório / grupo de estudo geralmente pode fazer todos os estudos necessários. Como resultado, tende-se a olhar para estudos de vários grupos, altura em que você aumentou as preocupações (por exemplo, se você tivesse feito todas as experiências relevantes, pelo menos você saberia) de subnotificação e relatórios seletivos de descobertas significativas / surpreendentes, p-hacking, testes múltiplos / correções de testes múltiplos e assim por diante.

Björn
fonte
1
(+1) O ponto de poder é extremamente importante! Diferentes teorias podem produzir dados observacionalmente equivalentes, e uma parte crítica do design do experimento é produzir e / ou coletar dados que permitam distinguir.
Matthew Gunn
-2

Hipótese nula (H0): A gravidade faz com que tudo no universo caia em direção à superfície da Terra.

Hipótese alternativa (H1): Nada nunca cai.

p<0.01

usul
fonte
2
Você acha que Galileu fez um milhão de tentativas? Nada disso é necessário nas ciências físicas. Estabelecer as leis da natureza aplicando o método científico não se reduz à inferência estatística.
Aksakal
1
-1 Isso é cientificamente, estatisticamente e historicamente impreciso. Os gregos acreditavam que era a afinidade que atraía objetos para a Terra. Não é ruim, mas não explica bem os problemas do sistema 3+ do corpo. As hipóteses devem ser complementares. Por fim, declarar um viés possivelmente conhecido como H_0 e mostrar experimentos continua a levar à mesma conclusão incorreta não torna a conclusão correta. por exemplo, as mulheres ganham menos que os homens porque são menos motivadas, obtém o salário de todas as mulheres, H_0 é verdadeiro!
AdamO 13/11
@ AdamO é exatamente esse o meu ponto.
usul
@AdamO, nos países ocidentais, as mulheres ganham menos quando trabalham menos por uma variedade de razões, incluindo sua própria escolha, desincentivos de todos os tipos e ambiente de trabalho hostil em alguns lugares. Quando trabalham da mesma maneira, ganham a mesma quantia , por exemplo, consulte os salários das enfermeiras de assistência médica onde as mulheres são a grande maioria: medscape.com/slideshow/… . Todos ganham os mesmos US $ 37 quando trabalham por hora. Totalmente fora de tópico, é claro.
Aksakal
2
Se a sua hipótese nula Gravity causes everything in the universe to fall toward Earth's surfacenão é a hipótese alternativa There is at least one thing in the universe that does not fall toward the Earth's surfacee não Nothing ever falls?
Eff