Se não conseguirmos rejeitar a hipótese nula em um grande estudo, não é evidência para a nula?

59

Uma limitação básica do teste de significância de hipótese nula é que ele não permite que um pesquisador colete evidências a favor do nulo ( Fonte )

Vejo essa afirmação repetida em vários lugares, mas não consigo encontrar justificativa para isso. Se realizarmos um grande estudo e não encontrarmos evidências estatisticamente significativas contra a hipótese nula , não são essas evidências para a hipótese nula?

Atte Juvonen
fonte
3
Mas começamos nossa análise assumindo que a hipótese nula está correta ... A suposição pode estar errada. Talvez não tenhamos energia suficiente, mas isso não significa que a suposição esteja correta.
SmallChess
13
Se você ainda não leu, recomendo A Terra é redonda, de Jacob Cohen (p <.05) . Ele enfatiza que, com um tamanho de amostra grande o suficiente, você pode rejeitar praticamente qualquer hipótese nula. Ele também fala a favor do uso de tamanhos de efeito e intervalos de confiança, e oferece uma apresentação elegante dos métodos bayesianos. Além disso, é uma delícia pura de ler!
Dominic Comtois
7
Hipóteses nulas podem estar apenas erradas. ... a falha em rejeitar o nulo não é evidência contra uma alternativa suficientemente próxima.
Glen_b
3
Consulte stats.stackexchange.com/questions/85903 . Mas consulte também stats.stackexchange.com/questions/125541 . Se, ao realizar "um grande estudo", você quer dizer "grande o suficiente para ter alta potência para detectar o efeito mínimo de interesse", a falha em rejeitar pode ser interpretada como aceitar o nulo.
Ameba diz Reinstate Monica
7
Considere o paradoxo da confirmação de Hempel. Examinar um corvo e ver que ele é preto é o suporte para "todos os corvos são pretos". Mas examinar logicamente um objeto não preto e ver que ele não é um corvo também deve apoiar a proposição, pois as declarações "todos os corvos são pretos" e "todos os objetos não pretos não são corvos" são logicamente equivalentes ... A resolução é que o número de objetos não-negros é muito, muito maior que o número de corvos; portanto, o suporte que um corvo negro dá à proposição é correspondentemente maior que o pequeno suporte que um não-corvo não-negro oferece.
Ben

Respostas:

62

Deixar de rejeitar uma hipótese nula é uma evidência de que a hipótese nula é verdadeira, mas pode não ser uma evidência particularmente boa e certamente não prova a hipótese nula.

Vamos fazer um pequeno desvio. Considere por um momento o velho clichê:

Ausência de evidência não é evidência de ausência.

Não obstante sua popularidade, essa afirmação não faz sentido. Se você procurar algo e não conseguir encontrá-lo, isso é absolutamente uma evidência de que não existe. Quão boa é essa evidência depende de quão minuciosa sua pesquisa foi. Uma pesquisa superficial fornece evidências fracas; uma pesquisa exaustiva fornece fortes evidências.

Agora, voltando ao teste de hipóteses. Ao executar um teste de hipótese, você está procurando evidências de que a hipótese nula não é verdadeira. Se você não a encontrar, isso certamente é uma evidência de que a hipótese nula é verdadeira, mas quão forte é essa evidência? Para saber isso, é necessário saber qual é a probabilidade de que evidências que o levem a rejeitar a hipótese nula possam ter escapado à sua pesquisa. Ou seja, qual é a probabilidade de um falso negativo no seu teste? Isso está relacionado ao poder, , do teste (especificamente, é o complemento, 1- ).ββ

Agora, o poder do teste e, portanto, a taxa de falsos negativos, geralmente depende do tamanho do efeito que você está procurando. Efeitos grandes são mais fáceis de detectar do que pequenos. Portanto, não há único para um experimento e, portanto, não há resposta definitiva para a questão de quão forte é a evidência para a hipótese nula. Em outras palavras, sempre há um tamanho de efeito pequeno o suficiente para que não seja descartado pelo experimento.β

A partir daqui, existem duas maneiras de prosseguir. Às vezes, você sabe que não se importa com um tamanho de efeito menor que um limite. Nesse caso, você provavelmente deve reformular seu experimento de modo que a hipótese nula seja de que o efeito esteja acima desse limite e, em seguida, teste a hipótese alternativa de que o efeito esteja abaixo do limite. Como alternativa, você pode usar seus resultados para definir limites para o tamanho crível do efeito. Sua conclusão seria que o tamanho do efeito está em algum intervalo, com alguma probabilidade. Essa abordagem está a um pequeno passo de um tratamento bayesiano, sobre o qual você pode querer aprender mais, se se encontrar com frequência nesse tipo de situação.

Há uma boa resposta para uma pergunta relacionada que aborda evidências de testes de ausência , que você pode achar útil.

Ninguém
fonte
9
Vamos considerar um teste de hipótese com , com e um valor p não significativo. De acordo com o seu raciocínio, esta é uma evidência para . Outro teste de hipótese com , com e um valor p não significativo, forneceria alguma evidência para . Essas evidências são obviamente contraditórias. H1:μ>2x¯=3μ2H1:μ<4x¯=3μ4
Macond
4
Não tenho certeza se segui seu argumento. Pelo que posso dizer, você está descrevendo duas experiências, cada uma das quais fornece (provavelmente bastante fraca) evidência para uma das duas hipóteses mutuamente inconsistentes. Por que isso é surpreendente?
Ninguém
8
Outro exemplo: comum . Se você falhar em rejeitar, significa que você tem evidências de que, entre todos os outros valores na linha real, a verdadeira média é exatamente 0 ..? Esta resposta é enganosa! H0:μ=0
Tim
3
Gosto da sua conta de evidências - ela parece levar rapidamente ao fator Bayes como quantificação do suporte de dados de um modelo contra outro. O depor a favor ou contra ? Bem, isso depende da sua densidade prévia para : se você acha que 's, quer em algum lugar um pouco menos de 2 ou em algum lugar muito maior do que 3, os dados fornecem evidências para isso; se você acha 's a mesma probabilidade de estar em qualquer lugar entre -10 e 10, os dados fornecem evidências contra ele. Mas, em uma análise freqüentista, seu grau de crença não é representado por um número, então qual conceito de evidência se aplica? x¯=3μ2μμμ
Scortchi - Restabelecer Monica
6
Isso me lembra a hipótese de Riemann. Procuramos e zeramos zeros não triviais fora da linha com a parte real 1/2, mas não conseguimos encontrar nenhum. E embora não consideremos a hipótese de Riemann verdadeira porque não a provamos, a maioria dos matemáticos acredita que é verdadeira e há muitos resultados que são verdadeiros condicionalmente na hipótese de Riemann ser verdadeira :) Portanto, neste caso, interpretamos ausência de evidência como evidência de ausência
Ant
29

O NHST se baseia em valores-p, que nos dizem: Dada a hipótese nula é verdadeira, qual é a probabilidade de observarmos nossos dados (ou dados mais extremos)?

Assumimos que a hipótese nula é verdadeira - é inserido no NHST que a hipótese nula é 100% correta. Pequenos valores de p nos dizem que, se a hipótese nula for verdadeira, nossos dados (ou dados mais extremos) não são prováveis.

Mas o que um grande valor p nos diz? Ele nos diz que, dada a hipótese nula, nossos dados (ou dados mais extremos) são prováveis.

De um modo geral, P (A | B) ≠ P (B | A).

Imagine que você queira usar um valor-p grande como evidência da hipótese nula. Você confiaria nesta lógica:

  • Se o nulo for verdadeiro, é provável que haja um alto valor de p. ( Atualização: não é verdade. Veja os comentários abaixo. )
  • Um alto valor p é encontrado.
  • Portanto, o nulo é verdadeiro.

Isso assume a forma mais geral:

  • Se B for verdadeiro, então A é provável.
  • A ocorre.
  • Portanto, B é verdadeiro.

Isso é falacioso, como pode ser visto por um exemplo:

  • Se choveu lá fora, é provável que o chão esteja molhado.
  • O chão está molhado.
  • Por isso, choveu lá fora.

O chão poderia muito bem estar molhado porque choveu. Ou pode ser devido a um aspersor, alguém limpando suas calhas, uma tubulação de água quebrada, etc. Exemplos mais extremos podem ser encontrados no link acima.

É um conceito muito difícil de entender. Se queremos evidências para o nulo, é necessária inferência bayesiana. Para mim, a explicação mais acessível dessa lógica é de Rouder et al. (2016). in paper Existe um almoço grátis na inferência? publicado em Topics in Cognitive Science, 8, pp. 520-547.

Mark White
fonte
3
Não gosto que todos os seus exemplos concluam "X é verdadeiro". Ter evidências de algo não é o mesmo que concluir algo com 100% de certeza. Se eu for lá fora e o chão estiver molhado, isso é evidência de "choveu". Essa evidência torna muito mais provável a ocorrência de chuva.
Atte Juvonen
Isso é justo. Que Rouder et al. O artigo ao qual vinculei no final da minha resposta não tem exemplos que tenham conclusões com certeza.
Mark White
6
@AtteJuvonen sim, temos algumas evidências de chuva, mas não sabemos qual é a probabilidade, então a única conclusão que você pode fazer é que "poderia ter chovido ou poderia ter sido outra coisa que deixou o chão molhado" . Então você tem evidências inconclusivas . Somente com base nas estatísticas bayesianas você pode argumentar o contrário.
Tim
3
Discordo da sua conclusão "Se queremos evidências para o nulo, é necessária inferência bayesiana"; o estudo que você está citando é de Wagenmakers, que é um forte defensor das estatísticas bayesianas, tão obviamente que eles argumentam isso. Mas, de fato, pode-se facilmente ter evidências "para o nulo" no paradigma freqüentista, por exemplo, realizando TOST (dois testes unilaterais) para equivalência. (cc @AtteJuvonen).
Ameba diz Reinstate Monica
10
"Se o nulo for verdadeiro, é provável que haja um alto valor de p." - Isso não está correto. Se a hipótese nula for verdadeira, entãopU[0,1] , portanto, valores altos de não são mais prováveis ​​do que valores baixos na hipótese nula. Tudo o que você pode dizer é que um valor alto de é mais provável sob o nulo do que em outras hipóteses - mas as hipóteses se mantêm ou não, portanto as hipóteses não são o espaço de probabilidade no qual estamos operando. A menos que trabalhemos em um paradigma bayesiano! E é aí que, infelizmente, seu argumento se desmorona. pp
S. Kolassa - Restabelece Monica
14

Para entender o que está errado com a suposição, consulte o seguinte exemplo:

Imagine um recinto em um zoológico onde você não pode ver seus habitantes. Você quer testar a hipótese de que ela é habitada por macacos, colocando uma banana na gaiola e verificando se ela desapareceu no dia seguinte. Isso é repetido N vezes para aumentar a significância estatística.

Agora você pode formular uma hipótese nula: dado que existem macacos no recinto, é muito provável que eles encontrem e comam a banana; portanto, se as bananas forem intocadas todos os dias, é muito improvável que haja macacos no interior.

Mas agora você vê que as bananas desaparecem (quase) todos os dias. Isso diz que os macacos estão lá dentro?

Claro que não, porque existem outros animais que também gostam de bananas, ou talvez um tratador atencioso retire a banana todas as noites.

Então, qual é o erro que é cometido nessa lógica? O ponto é que você não sabe nada sobre a probabilidade de as bananas desaparecerem se não houver macacos dentro. Para corroborar a hipótese nula, a probabilidade de desaparecer bananas deve ser pequena se a hipótese nula estiver errada, mas isso não precisa ser o caso. De fato, o evento pode ser igualmente provável (ou até mais provável) se a hipótese nula estiver errada.

Sem saber sobre essa probabilidade, você não pode dizer exatamente nada sobre a validade da hipótese nula. Se os tratadores retiram todas as bananas todas as noites, o experimento é completamente inútil, embora pareça à primeira vista que você corroborou a hipótese nula.

Thern
fonte
Essa deve ser a resposta aceita.
21717 Emily L.
2
@amoeba Nesse caso, o hip nulo seria que os macacos estão na gaiola. Altly seria que não há macacos na gaiola. As amostras que recolho são as observações "banana desapareceu" e "banana ainda está lá" todas as manhãs. Fazendo várias suposições sobre macacos e sua capacidade de encontrar bananas, posso calcular a probabilidade p de que eu teria visto o resultado real com macacos em uma gaiola. Se as bananas ainda estiverem lá com frequência, rejeitarei o hip nulo. Se as bananas sempre desaparecem, isso se encaixa no hip nulo, mas não prova que os macacos estão na gaiola.
Thern
11
@amoeba Não tenho certeza se é possível traduzir diretamente o exemplo de macaco para o seu cenário de teste t. Que eu saiba, o teste de hipóteses nulas geralmente significa o que também Mark White escreveu em sua resposta: "Dada a hipótese nula é verdadeira, qual é a probabilidade de observarmos nossos dados (ou dados mais extremos)?". Seu cenário de teste t é um caso específico disso, mas atualmente não vejo como esse cenário pode ser generalizado. Do meu pressentimento, eu diria que seu cenário e o exemplo do macaco são duas maneiras diferentes de testar hipóteses que não podem ser mapeadas diretamente uma para a outra.
Thern
11
Se sim, @Nebr, estou novamente muito confuso sobre o significado do seu exemplo de macaco. Prova-teste é provavelmente o teste de hipótese mais comum; Eu mencionei isso no meu comentário apenas porque é um exemplo típico de teste. Se o seu exemplo de macaco não for aplicável (como você diz) a isso - típico! - situação, então eu estou intrigado com o seu significado. De fato, se você diz que o teste t e o exemplo de macaco são "duas maneiras diferentes de testar hipóteses", então você pode dar um exemplo de teste estatístico que segue o exemplo de macaco "caminho"? O que exatamente é o seu exemplo de macaco uma analogia?
Ameba diz Reinstate Monica
11
@Nebr Concordo que é uma pergunta geral. Mas se você não puder me dar um único exemplo de um teste estatístico real que tenha a mesma propriedade que o seu exemplo de macaco, lamento, mas terei que considerar seu exemplo de macaco praticamente irrelevante para esse segmento. Não estou dizendo que o exemplo do macaco deva corresponder especificamente a um teste t. Mas tem que corresponder a alguma coisa !!
Ameba diz Reinstate Monica
14

Em seu famoso artigo Por que a maioria das descobertas de pesquisas publicadas é falsa , Ioannidis usou o raciocínio bayesiano e a falácia da taxa básica para argumentar que a maioria das descobertas são falsos positivos. Em breve, a probabilidade pós-estudo de que uma hipótese específica de pesquisa é verdadeira depende - entre outras coisas - da probabilidade pré-estudo da referida hipótese (ou seja, a taxa básica).

Como resposta, Moonesinghe et al. (2007) usaram a mesma estrutura para mostrar que a replicação aumenta muito a probabilidade pós-estudo de uma hipótese ser verdadeira. Isso faz sentido: se vários estudos podem replicar uma certa descoberta, temos mais certeza de que a hipótese conjecturada é verdadeira.

Eu usei as fórmulas de Moonesinghe et al. (2007) para criar um gráfico que mostre a probabilidade pós-estudo no caso de falha na replicação de uma descoberta. Suponha que uma certa hipótese de pesquisa tenha uma probabilidade pré-estudo de ser verdadeira de 50%. Além disso, estou assumindo que todos os estudos não têm viés (irrealistas!) Têm um poder de 80% e usam um de 0,05.αProbabilidade pós-estudo

O gráfico mostra que, se pelo menos 5 em cada 10 estudos falharem em alcançar significância, nossa probabilidade pós-estudo de que a hipótese é verdadeira é quase 0. O mesmo relacionamento existe para mais estudos. Essa descoberta também faz sentido intuitivo: uma falha repetida em encontrar um efeito fortalece nossa crença de que o efeito é provavelmente falso. Esse raciocínio está alinhado com a resposta aceita pelo @RPL.

Como segundo cenário, vamos supor que os estudos tenham apenas um poder de 50% (todos os demais iguais).Probabilidade pós-estudo_pow50

Agora, a probabilidade pós-estudo diminui mais lentamente, porque todos os estudos tinham apenas pouca energia para encontrar o efeito, se ele realmente existisse.

COOLSerdash
fonte
Observe que você obtém todas as evidências sobre a hipótese nula nos casos em que um teste falha nessa hipótese. Mas a suposição do OP era de que os testes corroboram a hipótese nula ("Se realizarmos um grande estudo e não encontrarmos evidências estatisticamente significativas contra a hipótese nula, não é essa a evidência para a hipótese nula?"). Isso corresponde à parte mais à esquerda dos seus diagramas e, portanto, a um caso em que a probabilidade do efeito ainda é de 50% (ou, em geral, a probabilidade pré-estudo), portanto você não ganhou nada.
Thern
@ Nebr eu não entendo. Se realizarmos um estudo grande e bem desenvolvido (digamos 95% de poder) e não encontrarmos evidências contra a hipótese nula (ou seja, um teste de hipótese estatística não é significativo no nível de 5%), nossa probabilidade pós-estudo seria 0,05 na estrutura mencionada (com uma probabilidade pré-estudo de 50%).
precisa saber é o seguinte
11
@Nebr Seu último comentário não faz nenhum sentido: se o resultado não for significativo, não poderá ser um "falso positivo".
Ameba diz Reinstate Monica
11
@Nebr If you have a negative, you found evidence against the null- O que? A palavra "negativo" tem exatamente o significado oposto. Um valor p significativo é chamado de resultado "positivo"; um não significativo é um "negativo".
Ameba diz Reinstate Monica
11
@Nebr 100% de potência NÃO significa "que, se H0 for verdadeiro, podemos ter certeza de que sempre veremos H1". Isso significa que, se H1 for verdadeiro, sempre veremos H1. Não tentarei ler mais o seu comentário, porque cada frase é confusa.
Ameba diz Reinstate Monica
12

A melhor explicação que vi para isso é de alguém cujo treinamento é em matemática.

O teste de significância de hipótese nula é basicamente uma prova por contradição: assuma , há evidência paraH0H1 ? Se houver evidência para , rejeite e aceite . Mas se não houver evidências para , é circular dizer que é verdadeiro porque você supôs que era verdadeiro no começo.H1H0H1H1H0H0

Clarinetist
fonte
4
Talvez você deva olhar para este tópico: stats.stackexchange.com/questions/163957/…
10

Se você não gosta dessa conseqüência do teste de hipóteses, mas não está preparado para dar o salto total aos métodos bayesianos, que tal um intervalo de confiança?

Suponha que você jogue uma moeda vezes e veja cabeças, o que leva a dizer que um intervalo de confiança de 95% para a probabilidade de cabeças é . 4207820913[0.492,0.502]

Você não disse ter visto evidências de que é de fato , mas as evidências sugerem alguma confiança sobre o quão próximo pode ser .1212

Henry
fonte
2
O que é bayesiano em relação a um intervalo de confiança?
Kjetil b halvorsen
3
@kjetilbhalvorsen: Um intervalo de confiança não é Bayesian (a intervalo de credibilidade seria), mas um intervalo de confiança dá mais informações sobre a prova, em seguida, uma simples rejeição da hipótese / não-rejeição faria
Henry
9

Talvez seja melhor dizer que a não rejeição de uma hipótese nula não é, por si só, evidência da hipótese nula. Depois de considerarmos a probabilidade total dos dados, que consideram mais explicitamente a quantidade de dados, os dados coletados podem fornecer suporte para os parâmetros que se enquadram na hipótese nula.

No entanto, também devemos pensar cuidadosamente sobre nossas hipóteses. Em particular, falhar em rejeitar uma hipótese nula de ponto não é uma evidência muito boa de que a hipótese nula de ponto é verdadeira. Realisticamente, ele acumula evidências de que o verdadeiro valor do parâmetro não está tão longe do ponto em questão. As hipóteses de ponto nulo são, em certa medida, construções artificiais e, na maioria das vezes, você não acredita que elas sejam exatamente verdadeiras.

Torna-se muito mais razoável falar sobre a não rejeição que suporta a hipótese nula, se você pode reverter significativamente a hipótese nula e alternativa e, ao fazê-lo, rejeitaria sua nova hipótese nula. Quando você tenta fazer isso com uma hipótese nula de ponto padrão, vê imediatamente que nunca conseguirá rejeitar seu complemento, porque sua hipótese nula invertida contém valores arbitrariamente próximos ao ponto em consideração.

Por outro lado, se você diz, por exemplo, testar a hipótese nula contra a alternativa para a média de uma distribuição normal, então, para qualquer valor verdadeiro de há um tamanho de amostra - a menos que não seja realista, o valor verdadeiro de seja ou - para o qual temos quase 100% de probabilidade que um intervalo de confiança de nível cairá completamente dentro de ou fora desse intervalo. Para qualquer tamanho de amostra finito, é claro que você pode obter intervalos de confiança que ultrapassam os limites, caso em que não é uma evidência tão forte da hipótese nula.H0:|μ|δHA:|μ|>δμμδ+δ1α[δ,+δ]

Björn
fonte
4
+1. Este IMHO deve ser a resposta aceita. Não entendo por que há tão poucos votos positivos.
Ameba diz Reinstate Monica
11
@amoeba porque foi publicado com atraso, mas concordo e já marquei com +1.
Tim
6

Depende bastante de como você está usando a linguagem. Sob a teoria da decisão de Pearson e Neyman, não é evidência para o nulo, mas você deve se comportar como se o nulo fosse verdadeiro.

A dificuldade vem do modus tollens. Os métodos bayesianos são uma forma de raciocínio indutivo e, como tal, são uma forma de raciocínio incompleto. Os métodos de hipótese nula são uma forma probabilística de modus tollens e, como tal, fazem parte do raciocínio dedutivo e, portanto, são uma forma completa de raciocínio.

Modus tollens tem a forma "se A é verdadeiro, então B é verdadeiro, e B não é verdadeiro; portanto, A não é verdadeiro". Nesta forma, seria se o nulo for verdadeiro, os dados aparecerão de uma maneira particular, eles não aparecerão dessa maneira, portanto (com algum grau de confiança) o nulo não será verdadeiro (ou pelo menos será "falsificado"). . "

O problema é que você deseja "Se A, então B e B." A partir disso, você deseja inferir A, mas isso não é válido. "Se A então B", não exclui "se não A, então B" também seja uma declaração válida. Considere a afirmação "se for um urso, pode nadar. É um peixe (não um urso)". As declarações não dizem nada sobre a capacidade de não-ursos nadar.

Probabilidade e estatística são um ramo da retórica e não um ramo da matemática. É um usuário pesado de matemática, mas não faz parte da matemática. Existe por várias razões, persuasão, tomada de decisão ou inferência. Estende a retórica a uma discussão disciplinada de evidências.

Dave Harris
fonte
11
+1 por mencionar Neyman e Pearson (consulte stats.stackexchange.com/questions/125541 ).
Ameba diz Reinstate Monica
5

Vou tentar ilustrar isso com um exemplo.

Vamos pensar que estamos coletando amostras de uma população, com a intenção de testar sua média . Nós obtemos uma amostra com a média . Se obtivermos um valor p não significativo, também valores p não significativos se tivéssemos testado qualquer outra hipótese nula , de modo que esteja entre e . Agora, para que valor de temos evidências?μx¯H0:μ=μiμiμ0x¯μ

Além disso, quando obtemos valores-p significativos, não obtemos evidências para um , em vez disso, é uma evidência contra (que pode ser tida como evidência para , ou dependendo da situação). A natureza do teste de hipóteses não fornece evidência para algo, mas apenas contra algo, se isso acontecer.H1:μ=MH0:μ=μ0μμ0μ<μ0μ>μ0

Macond
fonte
"Agora, para que valor de μ temos evidências?" - Temos evidências mais fortes para valores mais próximos da média amostral e evidências mais fracas para valores mais distantes da média amostral. Quão forte ou fraco depende do tamanho e da variação da amostra. Há algo de errado com essa interpretação?
Atte Juvonen
Sim, isso é uma má interpretação. O valor de p não é probabilidade de a hipótese nula ser verdadeira ou força de evidência a favor da hipótese nula. Da mesma forma, você pode fazer uma estimativa de intervalo, com média da amostra no meio do intervalo, mas isso não significa que há uma maior probabilidade de a média da população estar próxima do meio do intervalo. Há uma referência a uma boa explicação sobre essa má interpretação no comentário de Dominic Comtois à sua pergunta.
Macond
"isso não significa que há uma maior probabilidade de a população estar perto do meio do intervalo". - Isso não pode estar correto. Eu li o jornal, mas não consegui encontrar nada para corroborar isso.
Atte Juvonen
O meio do intervalo de confiança corresponde a 's, o que produzirá a média da amostra observada com maiores probabilidades. Mas isso não é equavalent a declaração: " 's mais perto do meio têm maior probabilidade de ser verdadeira média". Como afirmado muitas vezes por outros: . μμP(A|B)P(B|A)
Macond
4

Considere o pequeno conjunto de dados (ilustrado abaixo) com média , digamos que você realizou um teste bicaudal com , onde . O teste parece ser insignificante com . Isso significa que seu é verdadeiro? E se você testou contra ? Como a distribuição é simétrica, o teste retornaria um valor- semelhante . Portanto, você tem aproximadamente a mesma quantidade de evidência de que e .x¯0tH0:x¯=μμ=0.5p>0.05H0μ=0.5tpμ=0.5μ=0.5

Duas hipóteses alternativas

O exemplo acima mostra que pequenos valores de nos afastam da crença em e altos valores de sugerem que nossos dados são de alguma forma mais consistentes com , em comparação com . Se você realizou muitos desses testes, poderá encontrar que provavelmente são dados nossos dados e, na verdade, estaria usando uma estimativa de probabilidade semimaxima . A idéia do MLE é que você busque um valor de que maximize a probabilidade de observar os dados fornecidos , o que leva à função de probabilidadepH0pH0 H1μμμ

L(μ|X)=f(X|μ)

O MLE é uma maneira válida de encontrar a estimativa de pontos para , mas não diz nada sobre a probabilidade de observar com base nos seus dados. O que você fez foi escolher um valor único para e perguntar sobre a probabilidade de observar os dados fornecidos. Como já notado por outros, . Para encontrar , precisaríamos levar em consideração o fato de termos testado diferentes valores candidatos para . Isso leva ao teorema de Bayesμ^μ^μ^f(μ|X)f(X|μ)f(μ|X)μ^

f(μ|X)=f(X|μ)f(μ)f(X|μ)f(μ)dμ

que em primeiro lugar, considera como provável são diferentes 's a priori (isso pode ser uniforme, o que leva a resultados consistentes com MLE) e, segundo, normaliza para o fato de que você considerados candidatos diferentes para . Além disso, se você perguntar sobre em termos probabilísticos, precisará considerá-lo como uma variável aleatória; portanto, esse é outro motivo para a adoção da abordagem bayesiana.μμ^μ

Concluindo, o teste de hipótese informa se é mais provável que , mas como o procedimento precisava que você assumisse que é verdadeiro e escolha um valor específico para ele. Para fazer uma analogia, imagine que seu teste é um oráculo. Se você perguntar a ela: "o chão está molhado, é possível que estivesse chovendo?" , ela responde: "sim, é possível, em 83% dos casos, quando chovia, o chão fica molhado" . Se você perguntar novamente a ela, "é possível que alguém tenha derramado a água no chão?" , ela responderá "claro, também é possível, em 100% dos casos, quando alguém derramar água no chão , ela ficará molhada"H1H0H0etc. Se você solicitar alguns números, ela os entregará, mas os números não serão comparáveis . O problema é que o teste de hipótese / oracle opera em uma estrutura, onde ela pode dar respostas conclusivas apenas para as perguntas que perguntam se os dados são consistentes com alguma hipótese , e não o contrário, já que você não está considerando outras hipóteses.

Tim
fonte
2

Vamos seguir um exemplo simples.

Minha hipótese nula é que meus dados seguem uma distribuição normal. A hipótese alternativa é que a distribuição para meus dados não é normal.

Eu desenho duas amostras aleatórias de uma distribuição uniforme em [0,1]. Não posso fazer muito com apenas duas amostras, portanto, não seria capaz de rejeitar minha hipótese nula.

Isso significa que posso concluir que meus dados seguem a distribuição normal? Não, é uma distribuição uniforme !!

O problema é que eu assumi a normalidade em minha hipótese nula. Portanto, não posso concluir que minha suposição está correta porque não posso rejeitá-la.

SmallChess
fonte
3
Eu não acho que um estudo com 2 amostras se qualifique como "estudo". Assim que desenharmos um número razoável de pontos de dados, este exemplo não funcionará. Se desenharmos 1000 pontos de dados e eles parecerem uma distribuição uniforme, teremos evidências contra nossa hipótese nula. Se desenharmos 1000 pontos de dados e eles parecerem uma distribuição normal, teremos evidências de nossa hipótese nula.
Atte Juvonen
11
@AtteJuvonen Minha resposta não é uma tentativa de definir o que um estudo deveria ser. Eu simplesmente tento dar um exemplo simples para ilustrar a falta de poder estatístico para a pergunta. Todos sabemos que 2 amostras são ruins.
SmallChess
4
Direito. Só estou dizendo que seu exemplo ilustra o problema de tirar conclusões de 2 amostras. Não ilustra o problema de extrair evidências para hipóteses nulas.
Atte Juvonen
2

Rejeitar requer que seu estudo tenha poder estatístico suficiente . Se você é capaz de rejeitar , pode dizer que reuniu dados suficientes para tirar uma conclusão.H0H0

Por outro lado, não rejeitar não requer nenhum dado, pois é assumido como verdadeiro por padrão. Portanto, se seu estudo não rejeitar , é impossível saber qual é mais provável: é verdadeiro ou seu estudo simplesmente não era grande o suficiente .H 0 H 0H0H0H0

Dmitry Grigoryev
fonte
Ter evidências de algo não é o mesmo que saber algo com 100% de certeza. Não precisamos "saber se é verdadeiro". Mesmo se rejeitando , ainda não "sabemos" se é verdadeiro. H 0 H 0H0H0H0
Atte Juvonen
0

Não, não é evidência, a menos que você tenha evidência de que é evidência. Não estou tentando ser fofo, é literal. Você só tem probabilidade de ver esses dados, considerando que o nulo é verdadeiro. Isso é tudo o que você obtém do valor-p (se isso, uma vez que o valor-p é baseado nas próprias suposições).

Você pode apresentar um estudo que mostre que, para estudos que "falham" em apoiar a hipótese nula, a maioria das hipóteses nulas acaba sendo verdadeira? Se você encontrar esse estudo, sua falha em refutar as hipóteses nulas pelo menos reflete uma probabilidade MUITO generalizada de que o nulo é verdadeiro. Aposto que você não tem esse estudo. Como você não prova que as hipóteses nulas são verdadeiras com base em valores-p, basta sair de mãos vazias.

Você começou assumindo que seu nulo era verdadeiro para obter esse valor-p; portanto, o valor-p não pode dizer nada sobre o nulo, apenas sobre os dados. Pense sobre isso. É uma inferência unidirecional - ponto final.

Roger Dodger
fonte