Cumming (2008) afirma que a distribuição dos valores de p obtidos nas repetições depende apenas do valor de p original. Como isso pode ser verdade?

52

Eu tenho lido o artigo de 2008 de Geoff Cumming, Replication Intervalos: os valores de prevêem o futuro apenas vagamente, mas os intervalos de confiança são muito melhores pp p p[~ 200 citações no Google Scholar] - e estou confuso com uma de suas alegações centrais. Este é um dos artigos em que Cumming argumenta contra os valores de e a favor de intervalos de confiança; minha pergunta, no entanto, não é sobre esse debate e diz respeito apenas a uma afirmação específica sobre os valores de .pp

Deixe-me citar o resumo:

Este artigo mostra que, se um experimento inicial resultar em bicaudal , há uma probabilidade de o valor unicaudal de uma replicação caia no intervalo , chance de que e chance de que . Notavelmente, o intervalo - denominado intervalo - é tão amplo quanto o tamanho da amostra.p=.0580%p(.00008,.44)10%p<.0000810%p>.44p

Cumming afirma que esse " intervalo " e, de fato, toda a distribuição de valores- que se obteria ao replicar o experimento original (com o mesmo tamanho fixo de amostra), dependem apenas do valor- original e não dependa do tamanho real do efeito, potência, tamanho da amostra ou qualquer outra coisa:pp p o b tpppobt

[...] a distribuição de probabilidade de pode ser derivada sem conhecer ou assumir um valor para (ou potência). [...] Não assumimos nenhum conhecimento prévio sobre e usamos apenas as informações [ observada entre grupos] fornecem sobre como base para o cálculo de um dado da distribuição de e de intervalos.pδδMdiffδpobtpp

Cumming 2008

Estou confuso com isso porque, para mim, parece que a distribuição dos valores de depende fortemente do poder, enquanto o por si só não fornece nenhuma informação sobre isso. Pode ser que o tamanho real do efeito seja e a distribuição seja uniforme; ou talvez o tamanho real do efeito seja enorme e, portanto, deveríamos esperar valores de muito pequenos . Obviamente, pode-se começar com a suposição de alguns tamanhos de efeitos anteriores sobre possíveis e integrar sobre ele, mas Cumming parece afirmar que não é isso que ele está fazendo.p o b t δ = 0 pppobtδ=0p

Pergunta: O que exatamente está acontecendo aqui?


Observe que este tópico está relacionado a esta pergunta: Que fração das experiências repetidas terá um tamanho de efeito dentro do intervalo de confiança de 95% da primeira experiência? com uma excelente resposta de @whuber. Cumming tem um artigo sobre este tópico para: Cumming & Maillardet, 2006, Intervalos de confiança e replicação: onde cairá a próxima média? - mas esse é claro e sem problemas.

Também observo que a afirmação de Cumming é repetida várias vezes no artigo de 2015 Nature Methods. O valor inconstante de gera resultados irreprodutíveisP que alguns de vocês podem ter encontrado (ele já tem ~ 100 citações no Google Scholar):

[...] haverá variação substancial no valor de experimentos repetidos. Na realidade, os experimentos raramente são repetidos; não sabemos quão diferente a próxima poderia ser. Mas é provável que possa ser muito diferente. Por exemplo, independentemente do poder estatístico de um experimento, se uma única réplica retornar um valor de , há uma chance de que um experimento repetido retorne um valor entre e (e uma alteração de [sic] que seria ainda maior).P P 0,05 80 % P 0 0,44 20 % PPPP0.0580%P00.4420%P

(Observe, a propósito, como, independentemente de a afirmação de Cumming estar correta ou não, o artigo da Nature Methods a cita de maneira imprecisa: de acordo com Cumming, é apenas probabilidade acima de . E sim, o artigo diz "20% chan g e ". Pfff.)0,4410%0.44

ameba diz Restabelecer Monica
fonte
8
Nenhum tipo de afirmação como essa teria que ser condicional a um estado de natureza assumido - e essa não seria, por padrão, a hipótese nula? Para hipóteses nulas simples e uma estatística distribuída continuamente , o valor-p tem uma distribuição uniforme. Tudo flui desse fato.
whuber
4
@whuber Bem, as distribuições mostradas na Figura 5 que reproduzi aqui claramente não são uniformes. Concordo, contudo, que qualquer distribuição desse tipo, ao que parece, deve estar condicionada ao estado da natureza, mas Cumming parece reivindicar o contrário. Daí a minha pergunta: o que realmente está acontecendo neste artigo? Estou entendendo mal a reivindicação? O papel está simplesmente errado? Podemos descobrir algumas suposições ocultas? Etc.
ameba diz Reinstate Monica
Nota para mim: este arxiv.org/abs/1609.01664 está aparentemente relacionado, mas uma rápida olhada não resolveu minha perplexidade.
Ameba diz Reinstate Monica
11
Eu gostaria de não estar dando finais esta semana ou gastaria algum tempo nisso. Não faz sentido que um valor p subseqüente dependa da potência, desde que os dois tamanhos de amostra sejam os mesmos. O valor p observado deve depender apenas do valor verdadeiro de um parâmetro e da sua escolha de nulo. A utilidade da estimativa depende do poder, mas isso não é uma questão aqui.
Dave Harris
3
Estou muito fora da minha liga aqui ... mas, lendo o jornal, parece que tudo está no contexto de testar uma diferença significativa nas médias de duas populações gaussianas com a mesma variação e tamanho de amostra conhecidos, com um valor nulo de 0 Isso está correto? (isto é, onde abaixo do nulo.) Ou o artigo tem escopo mais amplo, como o pergunta / comentários aqui parecem indicar? z=Δx¯σN2Nz,1z=ΔμσN2=0
GeoMatt22

Respostas:

21

Resumo: O truque parece ser uma abordagem bayesiana que assume um uniforme ( Jeffreys ) antes do parâmetro oculto ( no apêndice B do artigo, aqui).zμθ

Acredito que possa haver uma abordagem no estilo bayesiano para obter as equações dadas no apêndice B.

Pelo que entendi, o experimento se resume a uma estatística . A média da distribuição amostral é desconhecida, mas desaparece sob a hipótese nula, .zNθ,1θθH0=0

Chame a estatística observada experimentalmente . Então, se assumirmos um "uniforme" ( impróprio ) anterior em , o posterior bayesiano será . Se atualizarmos a distribuição de amostragem original marginalizando sobre , o posterior se tornará . (A variação dobrada se deve à convolução dos gaussianos.)z^θNθ,1θ1θz^Nz^,1θz^zz^Nz^,2

Matematicamente, pelo menos, isso parece funcionar. E explica como o fator "magicamente" aparece passando da equação B2 à equação B3.12


Discussão

Como esse resultado pode ser reconciliado com a estrutura padrão de teste de hipóteses nulas? Uma interpretação possível é a seguinte.

Na estrutura padrão, a hipótese nula é, em certo sentido, o "padrão" (por exemplo, falamos em "rejeitar o nulo"). No contexto bayesiano acima, isso seria um não-uniforme anterior que prefere . Se considerarmos que , a variação representa nossa incerteza anterior.θ=0θN0,λ2λ2

Carregando isso anteriormente através da análise acima, encontramos A partir disso, podemos ver que no limite , recuperamos a análise acima. Mas no limite nossos "posteriores" se tornam nulos, e , portanto recuperamos o resultado padrão, .

θN0,λ2θz^Nδ2z^,δ2,zz^Nδ2z^,1+δ2,δ211+λ2[0,1]
λλ0θz^N0,0zz^N0,1pz^U0,1

(Para estudos repetidos, o texto acima sugere uma pergunta interessante aqui sobre as implicações para a atualização bayesiana versus os métodos "tradicionais" para a meta-análise. Porém, sou completamente ignorante sobre o assunto da meta-análise!)


Apêndice

Conforme solicitado nos comentários, aqui está um gráfico para comparação. Esta é uma aplicação relativamente direta das fórmulas no papel. No entanto, vou escrevê-los para garantir que não haja ambiguidade.

Vamos denotar o valor unilateral de p para a estatística e denotar seu CDF (posterior) por . Então a equação B3 do apêndice é equivalente a que é o CDF normal padrão. A densidade correspondente é então que é o PDF normal padrão e como em a fórmula CDF. Finalmente, se denotarmos por o valor observadopz F[p]=1-Φ [ 1F[u]Pr[puz^]Φ [

F[p]=1Φ[12(z[p]z^)],z[p]=Φ1[1p]
Φ[]
f[p]F[p]=ϕ[(zz^)/2]2ϕ[z]
ϕ[]z=z[p]p^valor de p frente e verso correspondente a , temos z^
z^=Φ1[1p^2]

O uso dessas equações fornece a figura abaixo, que deve ser comparável à figura 5 do artigo citada na pergunta. "Reprodução" de Cumming (2008) Fig. 5 via fórmulas publicadas.

(Isso foi produzido pelo seguinte código do Matlab; execute aqui .)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));
GeoMatt22
fonte
11
Minha esperança é que, ao expor a suposição subjacente (por exemplo, uniforme anterior ao parâmetro oculto), a discussão possa agora se concentrar na questão científica / estatística que eu acredito que fosse seu alvo! (Em vez da matemática / probabilidade pergunta que responderam acima.)
GeoMatt22
Eu encontrei algumas discussões antigas e não tão antigas sobre esse tópico: Goodman 1992 , um comentário sobre Goodman de Senn 2002 e um recente Lazzeroni et al 2014 . O último parece um pouco inútil (mas eu o menciono por completo), mas os dois primeiros, particularmente o comentário de Senn, parecem muito pertinentes.
ameba diz Restabelecer Monica
ameba obrigado por desenterrar essas referências, elas parecem interessantes! Para completar, adicionei uma seção de "discussão" tentando conectar o resultado Cumming e a estrutura padrão.
GeoMatt22
Atualização: li os artigos de Goodman e Senn no link acima e agora publiquei minha própria resposta para resumir minha intuição atual. (A propósito, fiquei feliz em aceitar sua resposta e conceder a recompensa. Mais uma vez obrigado.)
ameba diz Reinstate Monica
27

Obrigado por todas as discussões interessantes! Ao escrever esse artigo de 2008, levei um tempo para me convencer de que a distribuição da replicação p (o valor de p fornecido por uma replicação exata de um estudo, ou seja, um estudo exatamente igual, mas com uma nova amostra) depende somente em p dado pelo estudo original. (No artigo, assumo uma população normalmente distribuída e amostragem aleatória, e que nossos estudos visam estimar a média da população.) Portanto, o intervalo p (o intervalo de previsão de 80% para a replicação p ) é o mesmo, qualquer que seja o N , poder ou tamanho real do efeito do estudo original.

Claro, isso é inacreditável a princípio. Mas observe com atenção que minha afirmação original se baseia em conhecer p do estudo original. Pense desta maneira. Suponha que você me diga que seu estudo original encontrou p = 0,05. Você não me diz mais nada sobre o estudo. Eu sei que o IC de 95% na média da amostra se estende exatamente a zero (assumindo que p foi calculado para uma hipótese nula de zero). Portanto, sua média da amostra é MoE (o comprimento de um braço desse IC de 95%), porque é a distância do zero. A distribuição amostral de médias de estudos como o seu possui desvio padrão MoE / 1,96. Esse é o erro padrão.

Considere a média dada por uma replicação exata. A distribuição dessa média de replicação tem MoE médio, ou seja, essa distribuição está centrada na média da amostra original. Considere a diferença entre a média da amostra e a média da replicação. Tem uma variação igual à soma das variações da média de estudos como o seu estudo original e replicações. Isso é o dobro da variação de estudos como o seu estudo original, ou seja, 2 x SE ^ 2. Qual é 2 x (MoE / 1,96) ^ 2. Portanto, o SD dessa diferença é SQRT (2) x MoE / 1,96.

Portanto, sabemos a distribuição da média de replicação: sua média é MoE e seu SD é SQRT (2) x MoE / 1,96. Certamente, a escala horizontal é arbitrária, mas precisamos conhecer apenas essa distribuição em relação ao IC do seu estudo original. À medida que as replicações são executadas, a maioria das médias (cerca de 83%) cairá no IC 95% original e cerca de 8% cairá abaixo dele (ou seja, abaixo de zero, se sua média original for> 0) e 8% superior a essa CI. Se soubermos onde uma média de replicação cai em relação ao seu IC original, podemos calcular o valor de p . Conhecemos a distribuição desses meios de replicação (em relação ao seu IC) para podermos descobrir a distribuição da replicação pvalor. A única suposição que estamos fazendo sobre a replicação é que ela é exata, isto é, veio da mesma população, com o mesmo tamanho de efeito que o seu estudo original e que N (e o desenho experimental) era o mesmo que no seu estudo .

Tudo acima é apenas uma reafirmação do argumento no artigo, sem figuras.

Ainda de maneira informal, pode ser útil pensar no que p = 0,05 no estudo original implica. Isso pode significar que você tem um estudo enorme com um tamanho de efeito minúsculo ou um estudo minúsculo com um tamanho de efeito gigante. De qualquer forma, se você repetir esse estudo (mesmo N , mesma população), sem dúvida obterá uma média amostral um pouco diferente. Acontece que, em termos do valor de p , 'um pouco diferente' é o mesmo, se você teve um estudo enorme ou minúsculo. Então, diga-me apenas o seu valor de p e eu lhe direi o seu intervalo de p .

Geoff

Geoff Cumming
fonte
8
Muito obrigado por se registrar neste site para responder à minha pergunta! Eu agradeço muito. Ainda não estou convencido, mas levarei algum tempo para refletir sobre sua resposta. Meu sentimento atual é que você faz uma observação válida, mas discordo de como você a formula. Uma objeção simples: p = 0,05 é consistente com H0 sendo verdadeiro. Se H0 for verdadeiro, p estará no intervalo 0,04-0,05 1% do tempo. Se for esse o caso, a distribuição dos valores de p de replicação será uniforme de 0 a 1. Mas você prevê uma distribuição diferente para o p inicial = 0,05 em todas as circunstâncias . Como alguém deve pensar sobre isso?
Ameba diz Reinstate Monica
7
Uma suposição implícita nesse argumento parece insustentável: é que uma "replicação exata" tem uma média igual ao MoE. Se por "replicação exata" queremos dizer repetir o experimento com o mesmo estado da natureza, a distribuição da estatística do teste é desconhecida: depende do estado da natureza. Além de adotar um ponto de vista bayesiano - o que significa que você precisa declarar explicitamente o seu anterior - sobre a única maneira de progredir é computar probabilidades antes que o original ou a replicação seja executada, sem depender da replicação.
whuber
2
@ user43849 Com todo o respeito, eu alegaria que essa pessoa não entende o que é um valor-p. Um valor p diz pouco ou nada sobre experimentos futuros . Existe um conceito frequente de intervalo de previsão que se aplica diretamente aqui: a questão da replicação simplesmente diz respeito a um intervalo de previsão para o valor-p de um único experimento futuro. A resposta está bem fundamentada na teoria estatística clássica, não requer conceitos inovadores e é (definitivamente) de espírito não bayesiano.
whuber
2
@ whuber cavando no jornal, acredito que possa haver uma suposição bayesiana implícita subjacente ao exercício (veja minha resposta).
GeoMatt22
11
@GeoMatt Sim, essa parece ser a única maneira de justificar os cálculos.
whuber
10

A questão foi esclarecida por @ GeoMatt22 e fiquei muito satisfeito ao ver @GeoffCumming vindo aqui para participar da discussão. Estou postando esta resposta como um comentário adicional.


Como se vê, essa discussão remonta pelo menos a Goodman (1992). Um comentário sobre replicação, valores-P e evidência e uma resposta posterior de Senn (2002) Letter to the Editor . Eu recomendo a leitura desses dois breves artigos, particularmente o de Stephen Senn; Encontro-me totalmente de acordo com Senn.

Se eu tivesse lido esses documentos antes de fazer essa pergunta, provavelmente nunca teria postado. Goodman (ao contrário de Cumming) afirma muito claramente que considera um cenário bayesiano com um apartamento anterior. Ele não apresenta distribuições de valor como Cumming, e relata probabilidades de observar um resultado "significativo" de em um experimento de replicação:pp<0.05

Goodman 1992

Seu ponto principal é que essas probabilidades são surpreendentemente baixas (mesmo para , são apenas ). Em particular, para , é apenas . (Este último probabilidade continua a ser o mesmo para qualquer e .)0,78 p = 0,05 a 0,5 1 / 2 α p = αp=0.0010.78p=0.050.51/2αp=α

O ponto de resposta de Senn é que esta é uma observação útil que, no entanto, que não minar -Valores em qualquer forma e faz não , ao contrário do Goodman, significa que -Valores "exagerar as provas contra o nulo". Ele escreve:ppp

Também considero que a demonstração de [Goodman] é útil por duas razões. Primeiro, serve como um aviso para quem planeja outro estudo semelhante ao recém-concluído (e que tem um resultado marginalmente significativo) de que isso pode não corresponder no segundo estudo. Segundo, serve como um aviso de que se espera que inconsistência aparente nos resultados de estudos individuais seja comum e que não se deva exagerar nesse fenômeno.

Senn nos lembra que os valores unilaterais podem ser entendidos como probabilidades posteriores bayesianas de abaixo do plano anterior para (antes impróprio de toda a linha real) [ver Marsman & Wagenmakers 2016 para uma breve discussão deste fato e algumas citações] .H 0 : μ < 0 μpH0:μ<0μ

Se assim for, então ter obtido qualquer nomeadamente -valor de um experimento, a probabilidade de que a experiência seguinte irá produzir um menor -valor tem de ser ; caso contrário, replicações futuras poderiam fornecer evidências adicionais antes de serem conduzidas. Portanto, faz total sentido que, para Goodman tenha obtido probabilidade . E, de fato, todas as distribuições de replicação calculadas por Cumming e @ GeoMatt22 têm medianas nos respectivos .p 1 / 2 p = 0,05 a 0,5 p o b sp p1/2p=0.050.5pobs

No entanto, não precisamos que essa probabilidade de replicação seja maior que para acreditar que a eficácia do tratamento é provável. Uma longa série de ensaios, % dos quais eram significativos no nível de %, seria uma evidência convincente de que o tratamento foi eficaz.500.5505

Aliás, qualquer um que olhe as distribuições preditivas dos valores de para, digamos, um teste t de determinado tamanho e poder ( veja, por exemplo, aqui ) não ficará surpreso ao exigir uma mediana em necessariamente tornar essa distribuição bastante ampla , com uma cauda gorda indo em direção a . Sob esse prisma, amplos intervalos relatados por Cumming deixam de ser surpreendentes.p = 0,05 1pp=0.051

O que eles vez que sugerem, é que se deve usar amostras maiores ao tentar replicar um experimento; e, de fato, essa é uma recomendação padrão para estudos de replicação (por exemplo, Uri Simonsohn sugere , como regra geral, aumentar o tamanho da amostra em vezes).2.5

ameba diz Restabelecer Monica
fonte
5
(+1) Felizmente , você não encontrou Goodman ou Senn até o momento. :-)
cardinal
6

Obrigado a todos por mais discussões interessantes. Em vez de fazer meus comentários, ponto por ponto, vou oferecer algumas reflexões gerais.

Bayes. Não tenho absolutamente nada contra as abordagens bayesianas. Desde o início, eu esperava que uma análise bayesiana, assumindo um anterior plano ou difuso, desse os mesmos ou muito semelhantes intervalos de previsão. Há um parágrafo na p. 291 no artigo de 2008 sobre isso, em parte solicitado por um dos revisores. Então, estou satisfeito em ver, acima, um trabalho dessa abordagem. Isso é ótimo, mas é uma abordagem muito diferente da que eu fiz.

Como um aparte, optei por trabalhar na defesa de intervalos de confiança (as novas estatísticas: tamanhos de efeito, ICs, metanálise) em vez de abordagens bayesianas de estimativa (com base em intervalos credíveis) porque não sei como explicar o Abordagens bayesianas para iniciantes suficientemente bem. Não vi nenhum livro Bayesiano realmente introdutório que eu pudesse usar com iniciantes, ou que provavelmente seja achado acessível e convincente por um grande número de pesquisadores. Portanto, precisamos procurar em outro lugar se quisermos ter uma chance decente de melhorar a maneira como os pesquisadores fazem sua inferência estatística. Sim, precisamos ir além de pvalores e mudar da tomada de decisão dicotômica para estimativa, e os bayesianos podem fazer isso. Porém, é muito mais provável conseguir mudanças práticas, uma abordagem convencional de IC. É por isso que nosso livro de introdução às estatísticas, lançado recentemente, adota a nova abordagem estatística. Veja www.thenewstatistics.com

De volta às reflexões. Central para minha análise é o que quero dizer com conhecer apenas o valor de p do primeiro estudo. As suposições que eu faço são declaradas (população normal, amostragem aleatória, DP conhecido da população, para que possamos usar os cálculos de z em vez de t, enquanto conduzimos inferência sobre a média da população, replicação exata). Mas é tudo o que estou assumindo. Minha pergunta é 'dado apenas p do experimento inicial, até onde podemos ir?' Minha conclusão é que podemos encontrar a distribuição de p esperada de um experimento de replicação. A partir dessa distribuição, podemos derivar p intervalos, ou qualquer probabilidade de interesse, como a probabilidade que a replicação fornecerá p<0,05 ou qualquer outro valor de interesse.

O núcleo do argumento, e talvez o passo que vale mais reflexão, está ilustrado na Figura A2 do artigo. A metade inferior é provavelmente sem problemas. Se soubermos mu (geralmente alcançado assumindo que é igual à média do estudo inicial), os erros de estimativa, representados pelos segmentos de linha espessa, têm uma distribuição conhecida (normal, média mu, DP, conforme explicado na legenda).

Em seguida, o grande passo: considere a metade superior da Figura 2A. Não temos informações sobre o mu. Nenhuma informação - nenhuma suposição oculta sobre um prior. No entanto, podemos afirmar a distribuição desses segmentos de linha espessa: normal, média zero, DP = SQRT (2) vezes o DP na metade inferior. Isso nos dá o que precisamos para encontrar a distribuição da replicação p .

Os intervalos p resultantes são surpreendentemente longos - pelo menos sinto espanto quando comparo com a maneira como os valores de p são virtualmente usados ​​universalmente pelos pesquisadores. Os pesquisadores geralmente ficam obcecados com a segunda ou terceira casa decimal de um valor p , sem perceber que o valor que estão vendo poderia muito facilmente ter sido muito diferente. Portanto, meus comentários nas páginas 293-4 sobre relatar intervalos p para reconhecer a imprecisão de p .

Longo, sim, mas isso não significa que p do experimento inicial não signifique nada. Após um p inicial muito baixo , as repetições tenderão, em média, a ter valores pequenos de p . P inicial e replicações mais altas tenderão a ter valores de p um pouco maiores . Veja a Tabela 1 na p. 292 e compare, por exemplo, os intervalos p na coluna da direita para os iniciais p = 0,001 e 0,1 - dois resultados convencionalmente considerados separados por milhas. Os dois intervalos p são definitivamente diferentes, mas há uma sobreposição enorme dos dois. A replicação do experimento .001 poderia facilmente dar pmaior que uma replicação do experimento .1. Embora, muito provavelmente, não.

Como parte de sua pesquisa de doutorado, Jerry Lai, relatou ( Lai, et al., 2011 ) vários estudos interessantes que descobriram que pesquisadores de várias disciplinas publicaram intervalos de p subjetivos muito curtos. Em outras palavras, os pesquisadores tendem a subestimar drasticamente quão diferente é provável o valor de p de uma replicação.

Minha conclusão é que simplesmente não devemos usar valores de p . Relate e discuta o IC 95%, que transmite todas as informações nos dados que nos informam sobre a média da população que estamos investigando. Dado o IC, o valor de p não acrescenta nada e provavelmente sugere, de maneira errada, algum grau de certeza (Significativo! Não significativo! O efeito existe! Não existe!). Certamente, os valores de ICs e p são baseados na mesma teoria e podemos converter de um para o outro (há muito sobre isso no capítulo 6 do nosso livro de introdução). Mas o IC fornece mais informações do que a p . Mais importante ainda, destaca a extensão da incerteza. Dada a nossa tendência humana de buscar a certeza, é vital considerar a extensão do IC.

Eu também tentou destacar a variabilidade da p valores na 'dança das p valores' vídeos. Google 'dança dos valores p '. Existem pelo menos algumas versões.

Que todos os seus intervalos de confiança sejam curtos!

Geoff

Geoff Cumming
fonte
3
Obrigado por esses comentários adicionais, Geoff. Eu concordo com alguns pontos aqui (por exemplo, sobre "grau de certeza") e discordo de alguns outros (por exemplo, "considerando o IC, o valor de p não acrescenta nada"), mas uma coisa em particular que sinto que precisa ser repetida: eu não acho que existe alguma maneira de fazer sua análise sem um Bayes anterior. O argumento apresentado em sua Figura A2 requer um plano anterior como uma suposição oculta. Pode-se assumir outros priores e chegar a resultados muito diferentes; Não acho que exista argumento puramente freqüentista que possa apoiar suas conclusões. Veja os comentários do @ whuber acima.
Ameba diz Reinstate Monica
@ Geoff Cumming - Seus comentários sobre educação em estatística e interpretação de resultados são muito apreciados.
Roland2