O ASA discute as limitações dos valores de

100

Já temos vários threads marcados como valores-p que revelam muitos mal-entendidos sobre eles. Há dez meses, tínhamos uma discussão sobre periódicos psicológicos que " baniam " os valores de $p$ , agora a American Statistical Association (2016) diz que, com nossa análise, "não devemos terminar com o cálculo de um valor de ". $p$

A American Statistical Association (ASA) acredita que a comunidade científica pode se beneficiar de uma declaração formal que esclareça vários princípios amplamente aceitos subjacentes ao uso e interpretação adequados do valor- . $p$

O comitê lista outras abordagens como possíveis alternativas ou suplementos aos valores de : $p$

Em vista dos maus usos e concepções errôneas prevalecentes sobre os valores de , alguns estatísticos preferem complementar ou mesmo substituir os valores de por outras abordagens. Isso inclui métodos que enfatizam a estimativa sobre o teste, como confiança, credibilidade ou intervalos de previsão; Métodos bayesianos; medidas alternativas de evidência, como índices de verossimilhança ou fatores de Bayes; e outras abordagens, como modelagem teórica da decisão e taxas de falsas descobertas. Todas essas medidas e abordagens se baseiam em suposições adicionais, mas podem abordar mais diretamente o tamanho de um efeito (e sua incerteza associada) ou se a hipótese está correta. $p$ $p$

Então, vamos imaginar pós- -Valores realidade. O ASA lista alguns métodos que podem ser usados no lugar dos valores- , mas por que eles são melhores? Quais deles podem substituir a vida real de um pesquisador que usou valores- por toda a sua vida? Imagino que este tipo de perguntas irá aparecer em pós- realidade -Valores, talvez por isso vamos tentar estar um passo à frente deles. Qual é a alternativa razoável que pode ser aplicada imediatamente? Por que essa abordagem deve convencer seu pesquisador, editor ou leitor principal? $p$ $p$ $p$ $p$

Como sugere esta entrada de blog de acompanhamento , os valores de são imbatíveis em sua simplicidade: $p$

O valor p requer apenas um modelo estatístico para o comportamento de uma estatística sob a hipótese nula. Mesmo que um modelo de hipótese alternativa seja usado para escolher uma estatística "boa" (que seria usada para construir o valor-p), esse modelo alternativo não precisa estar correto para que o valor-p seja válido e útil (ou seja: erro do tipo I de controle no nível desejado, oferecendo alguma energia para detectar um efeito real). Por outro lado, outros métodos estatísticos (maravilhosos e úteis), como razões de verossimilhança, estimativa de tamanho de efeito, intervalos de confiança ou métodos bayesianos, todos precisam dos modelos assumidos para conter uma ampla gama de situações, não apenas sob o nulo testado.

Eles são, ou talvez não seja verdade e possamos substituí-los facilmente?

Eu sei, isso é amplo, mas a questão principal é simples: qual é a melhor (e por que) alternativa da vida real aos valores de que podem ser usados como substitutos? $p$

ASA (2016). Declaração da ASA sobre significância estatística e valores- . $P$ O estatístico americano. (no prelo)

hypothesis-testing bayesian p-value frequentist Tim
fonte

3

Obrigado a se tornar uma pergunta clássica +1! A abordagem bayesiana, porque nos permite (pelo menos subjetivamente) responder à pergunta em que estamos frequentemente interessados, a saber: "À luz da evidência (dados), qual é a probabilidade de que a hipótese seja verdadeira?"

Christoph Hanck 8/03/16

9

A " realidade pós- valor- " tem um belo anel distópico.

p

$p$

Marc Claesen

4

Vale a pena ler os documentos de discussão publicados junto com a declaração da ASA, pois alguns deles têm sugestões sobre o que poderia substituir os valores-p. Conteúdo complementar

Seth

2

Publiquei uma pergunta relacionada com base em outra parte do relatório da ASA, um de seus avisos sobre os possíveis abusos dos valores-p: quanto sabemos sobre o hacking-p?

Silverfish

1

Como um comentário à minha própria pergunta, há um belo tópico que discute um tópico semelhante: stats.stackexchange.com/questions/17897/…

Tim

100

Vou focar esta resposta na questão específica de quais são as alternativas aos valores de . $p$

Existem 21 documentos de discussão publicados juntamente com a declaração da ASA (como Materiais Complementares): por Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Greenland, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark e Steve Ziliak (alguns deles escreveram juntos) ; Listo tudo para pesquisas futuras). Essas pessoas provavelmente cobrem todas as opiniões existentes sobre valores- e inferência estatística. $p$

Eu olhei todos os 21 papéis.

Infelizmente, a maioria deles não discute nenhuma alternativa real, embora a maioria seja sobre limitações, mal-entendidos e vários outros problemas com os valores de (para uma defesa dos valores de , consulte Benjamini, Mayo e Senn). Isso já sugere que alternativas, se houver, não são fáceis de encontrar e / ou defender. $p$ $p$

Então, vejamos a lista de "outras abordagens" dada na própria declaração da ASA (conforme citado na sua pergunta):

[Outras abordagens] incluem métodos que enfatizam a estimativa sobre o teste, como confiança, credibilidade ou intervalos de previsão; Métodos bayesianos; medidas alternativas de evidência, como índices de verossimilhança ou fatores de Bayes; e outras abordagens, como modelagem teórica da decisão e taxas de falsas descobertas.

Intervalos de confiança

Intervalos de confiança são uma ferramenta freqüentista que anda de mãos dadas com os valores de ; relatar um intervalo de confiança (ou algum equivalente, por exemplo, média erro padrão da média) junto com o valor- é quase sempre uma boa idéia. $p$ $\pm$ $p$

Algumas pessoas (não entre os que disputam a ASA) sugerem que os intervalos de confiança devem substituir os valores- . Um dos defensores mais sinceros dessa abordagem é Geoff Cumming, que a chama de novas estatísticas (um nome que eu acho terrível). Veja, por exemplo, este post do blog de Ulrich Schimmack para uma crítica detalhada: Uma Revisão Crítica das Novas Estatísticas de Cumming (2014): Revendendo Estatísticas Antigas como Novas Estatísticas . Veja também Não podemos nos dar ao luxo de estudar o tamanho do efeito na postagem do blog do laboratório por Uri Simonsohn para um ponto relacionado. $p$

Veja também este tópico (e a minha resposta) sobre a sugestão semelhante de Norm Matloff, na qual eu argumento que, ao relatar ICs, ainda assim gostaria de ter também os valores de relatados: Qual é um exemplo bom e convincente no qual os valores de p são úteis? $p$

Algumas outras pessoas (também não entre os disputantes da ASA) argumentam que os intervalos de confiança, sendo uma ferramenta freqüentista, são tão equivocados quanto os valores de e também devem ser descartados. Veja, por exemplo, Morey et al. 2015, A falácia de colocar confiança em intervalos de confiança vinculados por @Tim aqui nos comentários. Este é um debate muito antigo. $p$
Métodos bayesianos

(Não gosto de como a declaração ASA formula a lista. Intervalos credíveis e fatores Bayes são listados separadamente de "Métodos Bayesianos", mas são obviamente ferramentas Bayesianas. Então, eu os conto aqui.)
- Existe uma literatura enorme e muito opinativa sobre o debate bayesiano versus freqüentador. Veja, por exemplo, este tópico recente para algumas reflexões: quando (se alguma vez) é uma abordagem freqüentista substancialmente melhor do que uma bayesiana? Análise Bayesiana faz total sentido quando se tem bons antecedentes informativos, e todo mundo só seria feliz para calcular e relatório ou em vez de $p(\theta|\text{data})$ $p(H_0:\theta=0|\text{data})$ $p(\text{data at least as extreme}|H_0)$ - mas infelizmente, as pessoas geralmente não têm bons antecedentes. Um experimentador registra 20 ratos fazendo algo em uma condição e 20 ratos fazendo a mesma coisa em outra condição; a previsão é que o desempenho dos ratos anteriores excederá o desempenho dos últimos ratos, mas ninguém estaria disposto ou realmente capaz de declarar um claro antes das diferenças de desempenho. (Mas veja a resposta de @ FrankHarrell, onde ele defende o uso de "priores céticos".)
- Os bayesianos obstinados sugerem o uso de métodos bayesianos, mesmo que não haja antecedentes informativos. Um exemplo recente é Krushke, 2012, a estimativa bayesiana substitui o teste $t$ , humildemente abreviado como BEST. A idéia é usar um modelo bayesiano com antecedentes não informativos fracos para calcular o posterior pelo efeito de interesse (como, por exemplo, uma diferença de grupo). A diferença prática com o raciocínio freqüentista costuma ser pequena, e até onde eu vejo essa abordagem permanece impopular. Consulte O que é um "priorininformativo"? Podemos ter um com realmente nenhuma informação? para a discussão do que é "não informativo" (resposta: não existe, daí a controvérsia).
- Uma abordagem alternativa, voltando a Harold Jeffreys, baseia-se em testes bayesianos (em oposição à estimativa bayesiana ) e usa fatores Bayes. Um dos proponentes mais eloquentes e prolíficos é Eric-Jan Wagenmakers, que publicou muito sobre esse assunto nos últimos anos. Vale ressaltar aqui duas características dessa abordagem. Primeiro, veja Wetzels et al., 2012, Um teste de hipótese bayesiana padrão para ANOVA Designs para uma ilustração de quão fortemente o resultado de um teste bayesiano pode depender da escolha específica da hipótese alternativa $H_1$ e a distribuição de parâmetros ("anterior") que ela postula. Em segundo lugar, uma vez que um "razoável" antes é escolhido (Wagenmakers anuncia Jeffreys' chamados priores 'default'), resultando Bayes fatores muitas vezes acabam por ser bastante consistente com o padrão -Valores, ver por exemplo, este número a partir desta pré-impressão por Marsman & Wagenmakers : $p$
  
  Assim, enquanto Wagenmakers et al. continue insistindo que os valores de são profundamente defeituosos e os fatores de Bayes são o caminho a percorrer, não se pode deixar de pensar ... (Para ser justo, o ponto de Wetzels et al. 2011 é que para valores de próximos a apenas os fatores de Bayes indicam evidências muito fracas contra o nulo; mas observe que isso pode ser facilmente tratado em um paradigma freqüentista simplesmente usando um mais rigoroso , algo que muitas pessoas estão defendendo de qualquer maneira.) $p$ $p$ $0.05$ $\alpha$
  
  Um dos artigos mais populares de Wagenmakers et al. em defesa dos fatores Bayes é 2011, por que os psicólogos devem mudar a maneira como analisam seus dados: o caso da psi, em que ele argumenta que o infame artigo de Bem sobre a previsão do futuro não teria chegado a suas conclusões errôneas se apenas eles tivessem usado os fatores Bayes de valores. Veja este pensativo post de Ulrich Schimmack para obter um contra-argumento detalhado (e convincente do IMHO): Por que os psicólogos não devem mudar a maneira como analisam seus dados: O diabo está no prior padrão . $p$
  
  Veja também O teste bayesiano padrão é preconceituoso contra pequenos efeitos no blog de Uri Simonsohn.
- Para completar, eu mencionar que Wagenmakers 2007, uma solução prática para os problemas comuns dos -Valores $p$ sugerida a utilização BIC como uma aproximação ao fator de Bayes para substituir os -Valores. O BIC não depende do anterior e, portanto, apesar do nome, não é realmente bayesiano; Não sei ao certo o que pensar sobre esta proposta. Parece que, mais recentemente, a Wagenmakers é mais a favor dos testes bayesianos com os anteriores não informativos de Jeffreys, veja acima. $p$
Para uma discussão mais aprofundada sobre estimativa Bayes vs. teste Bayesiano, consulte Estimação de parâmetro Bayesiano ou teste de hipótese Bayesiana? e links nele.
Fatores mínimos de Bayes

Entre os disputantes da ASA, isso é explicitamente sugerido por Benjamin & Berger e por Valen Johnson (os únicos dois trabalhos que sugerem uma alternativa concreta). Suas sugestões específicas são um pouco diferentes, mas são similares em espírito.
- As idéias de Berger remontam à Berger & Sellke 1987 e há vários artigos de Berger, Sellke e colaboradores até o ano passado, elaborando esse trabalho. A idéia é que, sob uma espiga e laje anterior, onde a hipótese nula obtém probabilidade e todos os outros valores de obtêm probabilidade espalhada simetricamente em torno de ("alternativa local"), então o mínimo posterior sobre todas as alternativas locais, ou seja, o fator mínimo de Bayes , é muito maior que o valor . Esta é a base da alegação (muito contestada) de que $\mu=0$ $0.5$ $\mu$ $0.5$ $0$ $p(H_0)$ $p$ $p$ $p$ $-ep\log(p)$ $p$ $-e\log(p)$ $10$ $20$ $p$
  
  Atualização posterior: veja um bom desenho explicando essas idéias de uma maneira simples.
  
  $p$ $p$
- $p$ $\sqrt{-4\pi\log(p)}$ $5$ $10$
Para uma breve crítica ao artigo de Johnson, consulte a resposta de Andrew Gelman e @ Xi'an no PNAS. Para o contra-argumento de Berger & Sellke 1987, veja Casella & Berger 1987 (Berger diferente!). Entre os documentos de discussão da APA, Stephen Senn argumenta explicitamente contra qualquer uma dessas abordagens:

$P$

Veja também as referências no artigo de Senn, incluindo as do blog de Mayo.
A declaração da ASA lista "modelagem teórica da decisão e taxas de falsas descobertas" como outra alternativa. Não tenho idéia do que eles estão falando, e fiquei feliz em ver isso declarado no documento de discussão de Stark:

$p$ $p$

$p$ $p$ $p$ $p$ $p$

Para citar o artigo de discussão de Andrew Gelman:

$p$ $p$

E de Stephen Senn:

$P$

$p<0.05$ $p$

[...] não procure uma alternativa mágica ao NHST, algum outro ritual mecânico objetivo para substituí-lo. Isso não existe.

ameba
fonte

1

@amoeba obrigado, este é um ótimo resumo! Eu concordo com o seu ceticismo - esse tópico surgiu em parte porque eu o compartilho. Nesse momento, deixo o tópico em aberto - sem resposta aceita -, pois talvez alguém possa fornecer exemplos e argumentos convincentes de que existe alguma alternativa boa e verdadeira.

Tim

1

@amoeba sobre Wagenmakers e BIC, é bom compará-lo com a crítica, por exemplo, por Gelman: andrewgelman.com/2008/10/23/i_hate_bic_blah

Tim

2

Esta é uma resposta verdadeiramente impressionante que merece estar entre as principais respostas votadas no currículo. Posso acrescentar outra recompensa algum tempo depois da de Tim.

gung

Obrigado, @gung, fico feliz em saber que isso significa muito vindo de você. Devo dizer, porém, que estou superficialmente familiarizado com os testes bayesianos e não tenho experiência prática com ele. Portanto, esta resposta fornece um resumo do que tenho lido, mas não é realmente uma opinião de um especialista.

Ameba

1

Não, você não precisa de um informativo prévio para que Bayes funcione bem. Como Spiegelhalter mostrou muito bem, os priores céticos têm um papel importante e são fáceis de usar. As probabilidades posteriores bayesianas têm grandes vantagens.

24517 Frank Harrell

27

Aqui estão meus dois centavos.

Eu acho que em algum momento, muitos cientistas aplicados declararam o seguinte "teorema":

$p\text{-value}<0.05\Leftrightarrow \text{my hypothesis is true}.$

e a maioria das más práticas vem daqui.

$p$

Eu costumava trabalhar com pessoas usando estatísticas sem realmente entender e aqui estão algumas das coisas que vejo:

$p<0.05$
$p<0.05$
$0.05$

Tudo isso é feito por cientistas honestos e versados, sem forte sensação de trapaça. Por quê ? IMHO, por causa do teorema 1.

$p$ $0.05$ $p$ $<0.05$ $p$ $<0.05$

$p$

$p$ $>0.05$

$H_0: \mu_1 \ne \mu_2$ $p$ $H_0$ $p=0.2$

$p$ $p(\mu_1>\mu_2|x)$ $p(\mu_1<\mu_2|x)$ $\mu_1>\mu_2$ $\mu_2>\mu_1$

Outro caso relacionado é quando os especialistas querem:

$\mu_1>\mu_2>\mu_3$ $\mu_1=\mu_2=\mu_3$ $\mu_1>\mu_2>\mu_3$

Mencionar a hipótese alternativa é a única solução para resolver este caso.

Portanto, usando probabilidades posteriores, o fator de Bayes ou a razão de verossimilhança em conjunto com intervalos de confiança / credibilidade parecem reduzir os principais problemas envolvidos.

$p$

$p$ $p$

Minha conclusão de dois centavos

$p$

peuhp
fonte

Talvez você possa editar seu exemplo para ficar mais claro, pois, por enquanto, o que você estava calculando, quais eram os dados e de onde vieram os números?

Tim

@Tim. Tks para o feedbak. Qual exemplo você está se referindo?

peuhp 9/03/16

"tente comparar (apenas porque temos os dados) uma hipótese: pegue 10 e 10 dados, calcule o valor de p. Encontre p = 0,2 ...."

Tim

1

Também não acho que "conhecer" sua hipótese seja verdadeira, mesmo que os dados pareçam sugerir o contrário, é necessariamente uma coisa ruim. Aparentemente, foi assim que Gregor Mendel sentiu quando havia algo errado com seus experimentos, porque ele tinha uma intuição tão forte que suas teorias estavam corretas.

dsaxton

@dsaxton Concordo plenamente com você. Talvez não seja tão claro, mas é uma coisa que tento ilustrar no meu primeiro ponto: o valor-p não é a chave definitiva da indução científica (embora pareça ser para um determinado público). É uma medição estatística das evidências apresentadas por uma certa quantidade de dados, sob certas condições. E em um caso em que você tenha muitas razões externas para pensar que o hyp é verdadeiro, mas quando os dados fornecem o valor "bom" de p, outras coisas podem ser discutidas conforme você o mencionou adequadamente. Vou tentar deixar mais claro na minha resposta.

peuhp 10/03/16

24

$P$

Está disponível mais software para métodos frequentistas do que métodos bayesianos.
Atualmente, algumas análises bayesianas levam muito tempo para serem executadas.
Os métodos bayesianos exigem mais reflexão e mais investimento de tempo. Não me importo com a parte do pensamento, mas o tempo é geralmente curto, por isso tomamos atalhos.
O bootstrap é uma técnica cotidiana altamente flexível e útil, mais conectada ao mundo freqüentista do que ao bayesiano.

$P$ $P$ faz com que seja necessário fazer ajustes arbitrários na multiplicidade, até mesmo ajustando a aparência dos dados que podem ter causado um impacto, mas na verdade não.

$P$

Exceto nos modelos lineares gaussianos e na distribuição exponencial, quase tudo o que fazemos com inferência freqüentista é aproximado (um bom exemplo é o modelo logístico binário que causa problemas porque sua função de probabilidade logarítmica é muito não quadrática). Com a inferência bayesiana, tudo é exato no erro de simulação (e você sempre pode fazer mais simulações para obter probabilidades posteriores / intervalos credíveis).

Escrevi um relato mais detalhado do meu pensamento e evolução em http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html

Frank Harrell
fonte

3

p

$p$

2

p

$p$

3

t

$t$

1

Frank, obrigado. Não estou muito familiarizado com os testes bayesianos (e nunca ouvi falar de Box & Tiao antes), mas minha impressão geral é que o fator Bayes que alguém obtém de um teste bayesiano pode depender fortemente da escolha específica de um desinformativo antes de entra. E essas escolhas podem ser difíceis de motivar. Eu acho que o mesmo vale para intervalos credíveis - eles dependerão fortemente da escolha de um prévio não informativo. Isso não é verdade? Se for, então como lidar com isso?

Ameba 14/03

2

Sim, embora eu não use fatores Bayes. A abordagem freqüentista também escolhe uma prévia - uma que ignora todos os outros conhecimentos sobre o assunto. Prefiro a abordagem cética anterior de Spiegelhalter. Em um mundo ideal, você deixará seus céticos fornecerem o antes.

23416 Frank Harrell

6

Um brilhante meteorologista Scott Armstrong, da Wharton, publicou um artigo há quase 10 anos, intitulado Testes de significância prejudica o progresso nas previsões no periódico internacional de previsão de um periódico que ele co-fundou. Mesmo que isso esteja na previsão, ele pode ser generalizado para qualquer análise de dados ou tomada de decisão. No artigo, ele afirma que:

"testes de significância estatística prejudicam o progresso científico. Os esforços para encontrar exceções a essa conclusão, até o momento, não foram encontrados".

Esta é uma excelente leitura para qualquer pessoa interessada na visão antitética dos testes de significância e dos valores de P.

A razão pela qual eu gosto deste artigo é porque Armstrong fornece alternativas ao teste de significância, que são sucintas e podem ser facilmente entendidas, especialmente para um não estatístico como eu. Isso é muito melhor na minha opinião do que o artigo da ASA citado na pergunta:

Tudo o que continuo abraçando e, desde então, parei de usar testes de significância ou observar os valores de P, exceto quando faço estudos experimentais aleatórios ou quase experimentos. Devo acrescentar que experimentos aleatórios são muito raros na prática, exceto na indústria farmacêutica / ciências da vida e em alguns campos da engenharia.

previsor
fonte

4

O que você quer dizer com "experimentos aleatórios são muito raros na prática, exceto na indústria farmacêutica e em alguns campos da engenharia"? Experimentos randomizados estão por toda parte na biologia e na psicologia.

Ameba

Eu editei para incluir ciências da vida.

previsor

2

Ok, mas dizendo que rand. exp. são "muito raros", exceto em medicina e ciências da vida e a psicologia está basicamente dizendo que são "muito comuns". Então, eu não tenho certeza sobre o seu ponto.

Ameba

6

$p$

$p$ . Ainda acho que essa é uma abordagem adequada, que deixa a questão da aplicabilidade científica dos resultados nas mãos desses especialistas em conteúdo. Agora, o erro que encontramos nas aplicações modernas não é de forma alguma uma falha da estatística como ciência. Também estão em jogo a pesca, a extrapolação e o exagero. De fato, se (digamos) um cardiologista mentir e afirmar que um medicamento que reduz a pressão arterial média de 0,1 mmHg é "clinicamente significativo", nenhuma estatística nos protegerá desse tipo de desonestidade.

Precisamos de um fim para a inferência estatística teórica da decisão. Deveríamos nos esforçar para pensar além da hipótese. A crescente lacuna entre a utilidade clínica e a investigação orientada por hipóteses compromete a integridade científica. O estudo "significativo" é extremamente sugestivo, mas raramente promete resultados clinicamente significativos.

Isso é evidente se inspecionarmos os atributos da inferência orientada por hipóteses:

A hipótese nula declarada é artificial, não concorda com o conhecimento atual e desafia a razão ou a expectativa.
As hipóteses podem ser tangenciais ao ponto que o autor está tentando fazer. As estatísticas raramente se alinham com grande parte da discussão que se segue nos artigos, com autores fazendo afirmações de longo alcance de que, por exemplo, seu estudo observacional tem implicações para políticas públicas e alcance.
As hipóteses tendem a ser incompletas no sentido de que não definem adequadamente a população de interesse e tendem a gerar generalização excessiva

Para mim, a alternativa é uma abordagem meta-analítica, pelo menos qualitativa. Todos os resultados devem ser rigorosamente analisados com base em outras descobertas e diferenças "semelhantes" descritas com muito cuidado, especialmente critérios de inclusão / exclusão, unidades ou escalas usadas para exposições / resultados, bem como tamanhos de efeito e intervalos de incerteza (que são melhor resumidos com ICs de 95% )

Também precisamos realizar ensaios confirmatórios independentes. Muitas pessoas são influenciadas por um estudo aparentemente significativo, mas sem replicação, não podemos confiar que o estudo foi realizado de forma ética. Muitos fizeram carreiras científicas a partir da falsificação de evidências.

AdamO
fonte

"A sugestão original de Fisher era que os cientistas comparassem qualitativamente o valor-p ao poder do estudo e tirassem conclusões por lá". Eu amo esse ponto - você tem uma referência que eu poderia citar onde Fisher disse isso? Seria um grande passo à frente se os cientistas passassem de uma dicotomia simples de p <0,05 para uma dicotomia apenas um pouco menos simples: "Se p <0,05 AND poder fosse alto, teríamos evidências razoavelmente fortes. Se p> 0,05 OR Se o poder estiver baixo, reteremos o julgamento sobre essa hipótese até obtermos mais dados ".

civilstat

6

$p$ $p$ $p$

Duas referências da literatura médica são: (1) por Langman, MJS, intitulado Towards estimation and trust interval, e Gardner MJ e Altman, DG, intitulado Confidence interval into than {P}

mdewey
fonte

2

Na verdade, CI de que não mostram o tamanho do efeito e precisão, verifique por exemplo Morey et al (2015) "A falácia de colocar confiança em intervalos de confiança" Psychonomic Bulletin & Review: learnbayes.org/papers/confidenceIntervalsFallacy

Tim

8

@ Tim, bom papel, eu nunca vi isso antes; Gostei do exemplo submarino. Obrigado pelo link. Mas deve-se dizer que está escrito por verdadeiros partidários bayesianos: "Os intervalos não bayesianos têm propriedades indesejáveis e até bizarras, o que levaria qualquer analista razoável a rejeitá-los como um meio de extrair inferências". Qualquer analista razoável! Arrogância impressionante.

ameba

1

@amoeba concorda, estou apenas fornecendo um contra-exemplo, pois, quanto a mim, não é tão óbvio que as alternativas são tão claras e diretas quanto podem parecer à primeira vista.

Tim

4

Embora interessante, não achei o exemplo submarino tão atraente. Nenhum estatístico pensante raciocina da mesma maneira que o exemplo. Você não para de pensar e aplica um método às cegas a todas as situações, apenas porque é útil em outras.

precisa saber é o seguinte

2

@amoeba: Nessa citação específica, "Os intervalos não bayesianos" se referem especificamente aos intervalos discutidos nesse exemplo, nem todos os intervalos justificados pela lógica não bayesiana. Veja aqui para mais contexto: stats.stackexchange.com/questions/204530/…

richarddmorey

1

Minha escolha seria continuar usando valores de p, mas simplesmente adicionando intervalos de confiança / credibilidade e, possivelmente, para os intervalos de previsão de resultados primários. Há um livro muito bom de Douglas Altman (Statistics with Confidence, Wiley) e, graças às abordagens boostrap e MCMC, você sempre pode criar intervalos razoavelmente robustos.

Joe_74
fonte

6

Eu acho que você realmente não responde à pergunta principal, que é "por que eles são melhores?" / "Por que essa abordagem deve convencer seu pesquisador, editor ou leitor?". Você pode desenvolver sua escolha?

peuhp 8/03/16

1. Isso apenas permite a prática atual. 2. De qualquer maneira, existe uma tendência a fazer "testes de significância de porta oculta" com o IC, 3. O teste de significância (com valores-p ou ICs) leva a uma baixa taxa de reprodutibilidade (consulte os artigos de Tim Lash). 4. Os pesquisadores não podem se preocupar em pré-especificar um limite ou efeito clinicamente significativo.

AdamO 01/10/19

1

$p$

desenvolver um modelo mais sofisticado capaz de simular resultados em uma população-alvo
identificar e medir atributos de uma população-alvo na qual uma decisão, tratamento ou política proposta possa ser implementada
estimar, por meio de simulação, uma perda esperada em unidades brutas de uma quantidade alvo, como anos de vida, anos de vida ajustados à qualidade, dólares, produção agrícola etc., e avaliar a incerteza dessa estimativa.

De todo modo, isso não exclui o teste normal de significância das hipóteses, mas ressalta que as descobertas estatisticamente significativas são etapas muito precoces, intermediárias no caminho para a descoberta real e que devemos esperar que os pesquisadores façam muito mais com suas descobertas.

AdamO
fonte

O ASA discute as limitações dos valores de

Respostas:

ppp

ppp

ppp

Minha conclusão de dois centavos

$p$

$p$

$p$