Com relação ao valor-p s, estou me perguntando por que % e % parecem ser o padrão-ouro para . Por que não outros valores, como % ou %?"statistical significance"
Existe uma razão matemática fundamental para isso, ou é apenas uma convenção amplamente aceita?
Respostas:
Se você verificar as referências abaixo, encontrará bastante variação em segundo plano, embora existam alguns elementos comuns.
Esses números são pelo menos parcialmente baseados em alguns comentários de Fisher, onde ele disse
(enquanto discute um nível de 1/20)
Por outro lado, ele às vezes era mais amplo:
Fisher também usou 5% para uma das tabelas de seu livro - mas a maioria das outras tabelas tinha uma variedade maior de níveis de significância
Alguns de seus comentários sugeriram abordagens mais ou menos rigorosas (isto é, níveis alfa mais altos ou mais baixos) em diferentes situações.
Esse tipo de discussão acima levou a uma tendência de produzir tabelas com níveis de significância de 5% e 1% (e algumas vezes com outras, como 10%, 2% e 0,5%), por falta de outros valores 'padrão'.
No entanto, neste artigo , Cowles e Davis sugerem que o uso de 5% - ou algo parecido com isso, pelo menos - remonta ao comentário de Fisher.
Em resumo, nosso uso de 5% (e em menor grau 1%) é uma convenção arbitrária, embora claramente muitas pessoas pareçam sentir que, por muitos problemas, estão no tipo certo de estádio.
Não há razão para que um valor específico deva ser usado em geral.
Referências adicionais:
Dallal, Gerard E. (2012). O pequeno manual de prática estatística. - Por que 0,05?
Stigler, Stephen (dezembro de 2008). "Fisher e o nível de 5%". Chance 21 (4): 12. disponível aqui
(Entre eles, você tem um bom histórico - parece que há um bom argumento para pensar que os níveis de significância pelo menos na estimativa geral de 5% - digamos entre 2% e 10% - foram mais ou menos por um tempo.)
fonte
Eu tenho que dar uma não resposta (o mesmo que aqui ):
Rosnow, RL e Rosenthal, R. (1989). Procedimentos estatísticos e justificativa do conhecimento em ciências psicológicas. American Psychologist , 44 (10), 1276-1284. pdf
O artigo contém mais algumas discussões sobre esse assunto.
fonte
Eu acredito que há alguma psicologia subjacente para os 5%. Devo dizer que não me lembro onde peguei isso, mas aqui está o exercício que costumava fazer em todas as classes de estatísticas de introdução da graduação.
Depois, mostro as mãos: quem ficaria convencido de que a moeda é tendenciosa se a divisão for 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Bem, os dois ou três primeiros não convencerão ninguém, e o último convencerá todos; 2/8 e 1/9 convenceriam a maioria das pessoas. Agora, se você procurar na tabela binomial, 2/8 é 5,5% e 1/9 é 1%. QED.
Se alguém estiver ministrando um curso introdutório de graduação no momento, recomendamos que você execute este exercício também e publique seus resultados como comentários, para que possamos acumular um grande corpo de resultados de meta-análises e publicá-los pelo menos no The American Canto Didático do Estatístico . Sinta-se à vontade para variar as condições de e unilaterais versus bilaterais!n
Em outra resposta, Glen_b cita Fisher fornecendo a discussão sobre se esses números mágicos devem ser modificados dependendo da gravidade do problema, portanto, não o faça. "Há um novo tratamento para a leucemia de sua irmã, mas isso a curaria. 3 meses ou matá-la em 3 dias, então vamos jogar algumas moedas "- isso pareceria tão bobo quanto a infame história em quadrinhos do xkcd que nem Andrew Gelman gostou tanto.
Falando em moedas e Gelman, o TAS teve um artigo muito curioso de Gelman e Nolan, intitulado "Você pode carregar um dado, mas não pode influenciar uma moeda" , argumentando que a moeda jogou no ar ou girou em um em cima da mesa, gastará cerca de metade do tempo com heads-up e, na outra vez, com coroa, por isso é difícil criar um mecanismo físico para influenciar seriamente uma moeda. (Essa claramente foi uma pesquisa de origem pub, quando eles experimentaram tampas de garrafas de cerveja.) Por outro lado, carregar um dado é uma coisa relativamente fácil de fazer, e dei aos meus alunos um exercício com cerca de 1 cm / meio polegadas cubos de madeira de uma loja local do passatempo e uma lixa, pedindo-lhes para carregar o dado, e provar para mim ele é carregado - que foi um exercício de Pearson teste para proporções e seu poder.χ2
fonte
5% parece ter sido arredondado de 4,56% por Fisher, correspondendo a "as áreas da cauda da curva além da média mais três ou menos três erros prováveis" (Hurlbert & Lombardi, 2009).
Outro elemento da história parece ser a reprodução de tabelas com valores críticos (Pearson et al., 1990; Lehmann, 1993). Fisher não recebeu permissão de Pearson para usar suas tabelas (provavelmente devido ao marketing de Pearson de sua própria publicação (Hurlbert & Lombardi, 2009) e à natureza problemática de seu relacionamento.
Hurlbert, SH, e Lombardi, CM (2009, outubro). Colapso final do referencial teórico de decisão de Neyman-Pearson e ascensão do neo-pescador. Em Annales Zoologici Fennici (Vol. 46, No. 5, pp. 311-349). Publicação zoológica e botânica finlandesa
Lehmann, EL (1993). As teorias de Fisher, Neyman-Pearson sobre o teste de hipóteses: uma teoria ou duas ?. Jornal da Associação Estatística Americana, 88 (424), 1242-1249.
Pearson, ES, Gosset, WS, Plackett, RL e Barnard, GA (1990). Estudante: uma biografia estatística de William Sealy Gosset. Oxford University Press, EUA.
Veja também: Gigerenzer, G. (2004). Estatísticas irracionais. The Journal of Socio-Economics, 33 (5), 587-606.
Hubbard, R. e Lindsay, RM (2008). Por que os valores de P não são uma medida útil de evidência no teste de significância estatística. Teoria e Psicologia, 18 (1), 69-88.
fonte
Parece-me que a resposta está mais na teoria dos jogos da pesquisa do que nas estatísticas. Ter 1% e 5% queimados na consciência geral significa que os pesquisadores não são efetivamente livres para escolher níveis de significância adequados às suas predisposições. Digamos que vimos um artigo com um valor-p de 0,055 e onde o nível de significância foi definido em 6% - as perguntas seriam feitas. 1% e 5% fornecem uma forma de compromisso credível.
fonte
Minha hipótese pessoal é que 0,05 (ou 1 em 20) está associado ao valor de / z de (muito próximo a) 2. Usar 2 é bom, porque é muito fácil identificar se o resultado é estatisticamente significativo. Não há outras confluências de números redondos.
fonte
O único número correto é .04284731
... que é uma resposta irreverente que significa que a escolha de 0,05 é essencialmente arbitrária. Normalmente, apenas relato o valor de p, e não o valor de p maior ou menor que.
"Significado" é uma variável contínua e, na minha opinião, discretizar muitas vezes causa mais mal do que bem. Quero dizer, se p = 0,13, você tem mais confiança do que se p = 0,21 e menor que se p = 0,003
fonte
Essa é uma área de teste de hipóteses que sempre me fascinou. Especificamente porque um dia alguém decidiu algum número arbitrário que dicotomizou o procedimento de teste e, desde então, as pessoas raramente o questionam.
Lembro-me de ter um professor nos dizendo para não confiar demais no teste de Staiger e Stock das variáveis instrumentais (onde o F-stat deveria estar acima de 10 na regressão do primeiro estágio para evitar problemas fracos no instrumento) porque o número 10 era um escolha completamente arbitrária. Lembro-me de dizer "Mas não é isso que fazemos com o teste regular de hipóteses ?????"
fonte
Por que 1 e 5? Porque eles se sentem bem.
Tenho certeza de que existem estudos sobre o valor emocional e a relevância cognitiva de números específicos, mas podemos entender a escolha de 1 e 5 sem ter que recorrer à pesquisa.
As pessoas que criaram as estatísticas de hoje nasceram, cresceram e vivem em um mundo decimal. É claro que existem sistemas de contagem não decimal, e contar até doze usando as falanges é possível e já foi feito, mas não é óbvio da mesma maneira que o uso dos dedos (que são, portanto, chamados de "dígitos", como os números ) E enquanto você (e Fisher) podem conhecer sistemas de contagem não decimal, o sistema decimal é e tem sido o sistema de contagem predominante seu (e o mundo de Fisher) nos últimos cem anos.
Mas por que os números cinco e um são especiais? Porque ambas são as divisões mais salientes naturalmente dos dez básicos: um dedo, uma mão (ou: metade).
Você nem precisa ir tão longe quanto conceitualizar frações para passar de dez para um e cinco. O primeiro está simplesmente lá, assim como o dedo está simplesmente lá. E reduzir pela metade algo é uma operação muito mais simples do que dividi-la em qualquer outra proporção. Cortar qualquer coisa em duas partes não requer reflexão, enquanto dividir por três ou quatro já é bastante complicado.
A maioria dos sistemas de moeda corrente possui moedas e notas com valores como 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Alguns sistemas de moeda não possuem 2, 20 e 200, mas quase todos os que começam em 1 e 5. Ao mesmo tempo, a maioria dos sistemas monetários não possui uma moeda ou nota que comece em 3, 4, 6, 7, 8 ou 9. Interessante, não é? Mas porque é isso?
Porque você sempre precisa de dez dos 1s ou dois dos 5s (ou cinco dos 2s) para chegar à próxima ordem maior. Calcular com dinheiro é muito simples: multiplicar dez ou dobrar. Apenas dois tipos de operações. Cada moeda que você possui é metade ou um décimo da moeda do próximo pedido. Esses números se multiplicam e se somam facilmente e bem.
Portanto, o 1 e o 5 foram profundamente arraigados, desde a primeira infância, em Fisher e quem mais escolheu os níveis de significância como as divisões mais diretas, mais simples e mais básicas de 10. Qualquer outro número precisa de um argumento para isso, enquanto essas os números estão simplesmente lá.
Na ausência de uma maneira objetiva de calcular o nível de significância apropriado para cada conjunto de dados individual, um e cinco parecem adequados.
fonte