Em relação aos valores de p, por que 1% e 5%? Por que não 6% ou 10%?

80

Com relação ao valor-p s, estou me perguntando por que % e % parecem ser o padrão-ouro para . Por que não outros valores, como % ou %? $1$ $5$ "statistical significance" $6$ $10$

Existe uma razão matemática fundamental para isso, ou é apenas uma convenção amplamente aceita?

hypothesis-testing statistical-significance p-value history Contango
fonte

2

E se todo mundo tivesse 12 dedos? Contaríamos a base 12, não a 10. E isso significa que o "1%" seria 1/144 ou 0,0069444444.

Contango

77

Se você verificar as referências abaixo, encontrará bastante variação em segundo plano, embora existam alguns elementos comuns.

Esses números são pelo menos parcialmente baseados em alguns comentários de Fisher, onde ele disse

(enquanto discute um nível de 1/20)

É conveniente considerar esse ponto como um limite ao julgar se um desvio deve ser considerado significativo ou não. Desvios superiores ao dobro do desvio padrão são formalmente considerados significativos

$\quad$ Fisher, RA (1925) Métodos Estatísticos para Pesquisadores , p. 47

Por outro lado, ele às vezes era mais amplo:

Se um em cada vinte não parece ter probabilidades suficientemente altas, podemos, se preferirmos, traçar a linha em um em cinquenta (o ponto de 2%) ou em uma em cem (o ponto de 1%). Pessoalmente, o escritor prefere estabelecer um baixo padrão de significância no ponto de 5% e ignora inteiramente todos os resultados que não atingem esse nível. Um fato científico deve ser considerado experimentalmente estabelecido apenas se um experimento adequadamente projetado raramente falhar em fornecer esse nível de significância.

$\quad$ Fisher, RA (1926) A disposição de experiências de campo . Revista do Ministério da Agricultura, p. 504
$\quad$

Fisher também usou 5% para uma das tabelas de seu livro - mas a maioria das outras tabelas tinha uma variedade maior de níveis de significância

Alguns de seus comentários sugeriram abordagens mais ou menos rigorosas (isto é, níveis alfa mais altos ou mais baixos) em diferentes situações.

Esse tipo de discussão acima levou a uma tendência de produzir tabelas com níveis de significância de 5% e 1% (e algumas vezes com outras, como 10%, 2% e 0,5%), por falta de outros valores 'padrão'.

No entanto, neste artigo , Cowles e Davis sugerem que o uso de 5% - ou algo parecido com isso, pelo menos - remonta ao comentário de Fisher.

Em resumo, nosso uso de 5% (e em menor grau 1%) é uma convenção arbitrária, embora claramente muitas pessoas pareçam sentir que, por muitos problemas, estão no tipo certo de estádio.

Não há razão para que um valor específico deva ser usado em geral.

Referências adicionais:

Dallal, Gerard E. (2012). O pequeno manual de prática estatística. - Por que 0,05?

Stigler, Stephen (dezembro de 2008). "Fisher e o nível de 5%". Chance 21 (4): 12. disponível aqui

(Entre eles, você tem um bom histórico - parece que há um bom argumento para pensar que os níveis de significância pelo menos na estimativa geral de 5% - digamos entre 2% e 10% - foram mais ou menos por um tempo.)

Glen_b
fonte

36

Eu tenho que dar uma não resposta (o mesmo que aqui ):

"... certamente, Deus ama o 0,06 quase tanto quanto o 0,05. Pode haver alguma dúvida de que Deus vê a força da evidência a favor ou contra o nulo como uma função bastante contínua da magnitude de p?" (p.1277)

Rosnow, RL e Rosenthal, R. (1989). Procedimentos estatísticos e justificativa do conhecimento em ciências psicológicas. American Psychologist , 44 (10), 1276-1284. pdf

O artigo contém mais algumas discussões sobre esse assunto.

Henrik
fonte

9

E quanto a 0,055? :)

nico

33

@nico Ninguém gosta de 0,055

Fomite 11/04/2013

18

Eu acredito que há alguma psicologia subjacente para os 5%. Devo dizer que não me lembro onde peguei isso, mas aqui está o exercício que costumava fazer em todas as classes de estatísticas de introdução da graduação.

Imagine que um estranho se aproxime de você em um pub e lhe diga: "Eu tenho uma moeda tendenciosa que produz cabeças com mais frequência do que caudas. Gostaria de comprar uma de mim para poder apostar com seus amigos e ganhar dinheiro com isso?" Você hesita em concordar em dar uma olhada e jogar a moeda 10 vezes. Pergunta : quantas vezes ele tem que pousar cara / coroa para convencê-lo de que é tendencioso?

Depois, mostro as mãos: quem ficaria convencido de que a moeda é tendenciosa se a divisão for 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Bem, os dois ou três primeiros não convencerão ninguém, e o último convencerá todos; 2/8 e 1/9 convenceriam a maioria das pessoas. Agora, se você procurar na tabela binomial, 2/8 é 5,5% e 1/9 é 1%. QED.

Se alguém estiver ministrando um curso introdutório de graduação no momento, recomendamos que você execute este exercício também e publique seus resultados como comentários, para que possamos acumular um grande corpo de resultados de meta-análises e publicá-los pelo menos no The American Canto Didático do Estatístico . Sinta-se à vontade para variar as condições de e unilaterais versus bilaterais! $n$

Em outra resposta, Glen_b cita Fisher fornecendo a discussão sobre se esses números mágicos devem ser modificados dependendo da gravidade do problema, portanto, não o faça. "Há um novo tratamento para a leucemia de sua irmã, mas isso a curaria. 3 meses ou matá-la em 3 dias, então vamos jogar algumas moedas "- isso pareceria tão bobo quanto a infame história em quadrinhos do xkcd que nem Andrew Gelman gostou tanto.

Falando em moedas e Gelman, o TAS teve um artigo muito curioso de Gelman e Nolan, intitulado "Você pode carregar um dado, mas não pode influenciar uma moeda" , argumentando que a moeda jogou no ar ou girou em um em cima da mesa, gastará cerca de metade do tempo com heads-up e, na outra vez, com coroa, por isso é difícil criar um mecanismo físico para influenciar seriamente uma moeda. (Essa claramente foi uma pesquisa de origem pub, quando eles experimentaram tampas de garrafas de cerveja.) Por outro lado, carregar um dado é uma coisa relativamente fácil de fazer, e dei aos meus alunos um exercício com cerca de 1 cm / meio polegadas cubos de madeira de uma loja local do passatempo e uma lixa, pedindo-lhes para carregar o dado, e provar para mim ele é carregado - que foi um exercício de Pearson teste para proporções e seu poder. $\chi^2$

StasK
fonte

3

Os mágicos costumam controlar o lançamento de moedas. Estatístico-matemático-mágico (permutar a provar) Persi Diaconis é bem conhecido por isso (e muito, muito mais).

Nick Cox

@StasK - Há alguns anos, fiz uma pergunta semelhante à do seu segundo parágrafo acima. Aqui está o link: stats.stackexchange.com/questions/7036/…

bill_080

conta, você perguntou sobre o poder, essencialmente. Esta pergunta aborda o nível do teste.

Stask

9

5% parece ter sido arredondado de 4,56% por Fisher, correspondendo a "as áreas da cauda da curva além da média mais três ou menos três erros prováveis" (Hurlbert & Lombardi, 2009).

Outro elemento da história parece ser a reprodução de tabelas com valores críticos (Pearson et al., 1990; Lehmann, 1993). Fisher não recebeu permissão de Pearson para usar suas tabelas (provavelmente devido ao marketing de Pearson de sua própria publicação (Hurlbert & Lombardi, 2009) e à natureza problemática de seu relacionamento.

Hurlbert, SH, e Lombardi, CM (2009, outubro). Colapso final do referencial teórico de decisão de Neyman-Pearson e ascensão do neo-pescador. Em Annales Zoologici Fennici (Vol. 46, No. 5, pp. 311-349). Publicação zoológica e botânica finlandesa

Lehmann, EL (1993). As teorias de Fisher, Neyman-Pearson sobre o teste de hipóteses: uma teoria ou duas ?. Jornal da Associação Estatística Americana, 88 (424), 1242-1249.

Pearson, ES, Gosset, WS, Plackett, RL e Barnard, GA (1990). Estudante: uma biografia estatística de William Sealy Gosset. Oxford University Press, EUA.

Veja também: Gigerenzer, G. (2004). Estatísticas irracionais. The Journal of Socio-Economics, 33 (5), 587-606.

Hubbard, R. e Lindsay, RM (2008). Por que os valores de P não são uma medida útil de evidência no teste de significância estatística. Teoria e Psicologia, 18 (1), 69-88.

empurrão
fonte

7

Parece-me que a resposta está mais na teoria dos jogos da pesquisa do que nas estatísticas. Ter 1% e 5% queimados na consciência geral significa que os pesquisadores não são efetivamente livres para escolher níveis de significância adequados às suas predisposições. Digamos que vimos um artigo com um valor-p de 0,055 e onde o nível de significância foi definido em 6% - as perguntas seriam feitas. 1% e 5% fornecem uma forma de compromisso credível.

conjecturas
fonte

7

Talvez, mas você acha que os pesquisadores não manipulam regressões, usam testes repetidos, etc. espremer sob o nível estabelecido de 5%, por exemplo ...

Kirk

Claro que isso é possível e provavelmente acontece. Mas a questão era de cerca de 1% e 5%. Parece-me que é uma tentativa de estabelecer uma convenção social sobre quando aceitar algo tão significativo. Eles são arbitrários, mas são arbitrários para pesquisadores como um grupo, e não arbitrários para pesquisadores individuais.

conjecturas

3

Concordo, eu apenas estava apontando que ter níveis de significância convencionais não significa que perguntas não devam ser feitas, como você deduziu em sua postagem. Só porque um artigo apresenta um resultado significativo em nível convencional, não significa que seja credível!

Kirk

Ah, eu estava usando credível no sentido da teoria dos jogos (ou tentando). Como você cria uma ameaça credível, se não for algo que você possa recuar ou mudar de idéia mais tarde. Nesse caso, os pesquisadores individuais teriam dificuldade em descer em algum outro limiar arbitrário.

conjecturas

2

O que @kirk se refere definitivamente acontece. Chama-se hacking .

p

$p$

perfil completo de Nick Stauner

6

Minha hipótese pessoal é que 0,05 (ou 1 em 20) está associado ao valor de / z de (muito próximo a) 2. Usar 2 é bom, porque é muito fácil identificar se o resultado é estatisticamente significativo. Não há outras confluências de números redondos.

Jeremy Miles
fonte

7

Duvido que isso esteja correto. Claro que existem "confluências de números redondos": por que não usar um valor crítico de ou , por exemplo? Além disso, ninguém estava se esquivando de criar extensas tabelas de valores críticos há um século, por isso é difícil ver de onde viria a motivação.

Z = 1

$Z=1$

Z = 3

$Z=3$

whuber

9

Pelo contrário, eles dão bons números! Para uma distribuição Normal, as chances são de , , e para . Todas essas aproximações têm precisão melhor que uma figura significativa - e o "1 em 20" é o pior do grupo (1 em 22 estaria muito mais próximo da verdade).

1 / 3

$1/3$

1 / 20

$1/20$

1 / 400

$1/400$

1 / 16000

$1/16000$

z = 1, 2, 3, 4

$z=1,2,3,4$

whuber

1

:) Hmm ... bom ponto. Mas você precisa ser limitado pelo que usaria como ponto de corte - 1/3 é um pouco relaxado, 1/400 é um toque rigoroso.

Jeremy Miles

10

É exatamente disso que estou falando, Jeremy: a tradição de 5% e 1% se baseia, pelo menos em parte, em um conceito de risco estatístico ("um pouco relaxado" ou um "rigoroso toque") e não originalmente derivar de qualquer regra prática conveniente.

whuber

1

@whuber O uso de dá aproximadamente , e você não pode obter muito mais round do que isso!

Z = 1

$Z=1$

1 / π

$1/{\pi}$

James

6

O único número correto é .04284731

... que é uma resposta irreverente que significa que a escolha de 0,05 é essencialmente arbitrária. Normalmente, apenas relato o valor de p, e não o valor de p maior ou menor que.

"Significado" é uma variável contínua e, na minha opinião, discretizar muitas vezes causa mais mal do que bem. Quero dizer, se p = 0,13, você tem mais confiança do que se p = 0,21 e menor que se p = 0,003

generic_user
fonte

Bem, nos tempos de tabelas alguém fosse mais ou menos forçado para discretizar ... desde tabelas são usadas no ensino, este continua ...

Kjetil b Halvorsen

@kjetilbhalvorsen bem, os criadores de tabelas erraram claramente ao não escolher .04284731 por seus valores críticos.

generic_user

2

Essa é uma área de teste de hipóteses que sempre me fascinou. Especificamente porque um dia alguém decidiu algum número arbitrário que dicotomizou o procedimento de teste e, desde então, as pessoas raramente o questionam.

Lembro-me de ter um professor nos dizendo para não confiar demais no teste de Staiger e Stock das variáveis instrumentais (onde o F-stat deveria estar acima de 10 na regressão do primeiro estágio para evitar problemas fracos no instrumento) porque o número 10 era um escolha completamente arbitrária. Lembro-me de dizer "Mas não é isso que fazemos com o teste regular de hipóteses ?????"

EconStats
fonte

5

Isso pretende ser uma resposta, @EconStats? Parece mais um comentário. Lembre-se de que o CV não se destina a ser um fórum de discussão. Você se importaria de tornar a resposta com este post mais saliente?

gung - Restabelece Monica

1

Desculpe @gung. Acho que meu argumento foi que, apesar de algumas das evidências fornecidas pelos outros usuários, ainda acho que a resposta mais provável é que temos um sistema de numeração decimal e ele ainda está sendo usado hoje para gerar números arbitrários para testes de hipóteses. por exemplo, o teste Staiger e Stock F que eu mencionei.

EconStats

1

Como o pôster original desta pergunta, acredito que isso definitivamente se qualifica como resposta. Obrigado!

Contango 11/10

0

Por que 1 e 5? Porque eles se sentem bem.

Tenho certeza de que existem estudos sobre o valor emocional e a relevância cognitiva de números específicos, mas podemos entender a escolha de 1 e 5 sem ter que recorrer à pesquisa.

As pessoas que criaram as estatísticas de hoje nasceram, cresceram e vivem em um mundo decimal. É claro que existem sistemas de contagem não decimal, e contar até doze usando as falanges é possível e já foi feito, mas não é óbvio da mesma maneira que o uso dos dedos (que são, portanto, chamados de "dígitos", como os números ) E enquanto você (e Fisher) podem conhecer sistemas de contagem não decimal, o sistema decimal é e tem sido o sistema de contagem predominante seu (e o mundo de Fisher) nos últimos cem anos.

Mas por que os números cinco e um são especiais? Porque ambas são as divisões mais salientes naturalmente dos dez básicos: um dedo, uma mão (ou: metade).

Você nem precisa ir tão longe quanto conceitualizar frações para passar de dez para um e cinco. O primeiro está simplesmente lá, assim como o dedo está simplesmente lá. E reduzir pela metade algo é uma operação muito mais simples do que dividi-la em qualquer outra proporção. Cortar qualquer coisa em duas partes não requer reflexão, enquanto dividir por três ou quatro já é bastante complicado.

A maioria dos sistemas de moeda corrente possui moedas e notas com valores como 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Alguns sistemas de moeda não possuem 2, 20 e 200, mas quase todos os que começam em 1 e 5. Ao mesmo tempo, a maioria dos sistemas monetários não possui uma moeda ou nota que comece em 3, 4, 6, 7, 8 ou 9. Interessante, não é? Mas porque é isso?

Porque você sempre precisa de dez dos 1s ou dois dos 5s (ou cinco dos 2s) para chegar à próxima ordem maior. Calcular com dinheiro é muito simples: multiplicar dez ou dobrar. Apenas dois tipos de operações. Cada moeda que você possui é metade ou um décimo da moeda do próximo pedido. Esses números se multiplicam e se somam facilmente e bem.

Portanto, o 1 e o 5 foram profundamente arraigados, desde a primeira infância, em Fisher e quem mais escolheu os níveis de significância como as divisões mais diretas, mais simples e mais básicas de 10. Qualquer outro número precisa de um argumento para isso, enquanto essas os números estão simplesmente lá.

Na ausência de uma maneira objetiva de calcular o nível de significância apropriado para cada conjunto de dados individual, um e cinco parecem adequados.

fonte

"sem ter que recorrer à pesquisa." Embora eu ache a resposta boa, isso a coloca firmemente no território das opiniões. Isso daria muita credibilidade e tornaria a resposta mais autoritária se houvesse fontes para apoiar isso.

Momo

Em relação aos valores de p, por que 1% e 5%? Por que não 6% ou 10%?

Respostas: