Edit: A base da minha pergunta é falha, e eu preciso gastar algum tempo para descobrir se isso pode ser feito para fazer sentido.
Edit 2: Esclarecendo que reconheço que um valor p não é uma medida direta da probabilidade de uma hipótese nula, mas que assumo que quanto mais próximo um valor p estiver de 1, maior a probabilidade de uma hipótese ter foi escolhido para testes experimentais cuja hipótese nula correspondente é verdadeira, enquanto quanto mais próximo o valor p for de 0, maior a probabilidade de uma hipótese ter sido escolhida para testes experimentais cuja hipótese nula correspondente é falsa. Não vejo como isso é falso, a menos que o conjunto de todas as hipóteses (ou todas as hipóteses escolhidas para experimentos) seja de alguma forma patológico.
Edit 3: Acho que ainda não estou usando uma terminologia clara para fazer minha pergunta. À medida que os números da loteria são lidos e você os combina com o seu bilhete, um por um, algo muda. A probabilidade de ganhar não muda, mas a probabilidade de desligar o rádio. Há uma mudança semelhante que acontece quando os experimentos são concluídos, mas tenho a sensação de que a terminologia que estou usando - "valores-p alteram a probabilidade de escolha de uma hipótese verdadeira" - não é a terminologia correta.
Edição 4: recebi duas respostas incrivelmente detalhadas e informativas que contêm muitas informações para eu trabalhar. Vou votar nos dois agora e depois voltarei a aceitar um quando tiver aprendido o suficiente com ambas as respostas para saber que elas responderam ou invalidaram minha pergunta. Essa pergunta abriu uma lata de vermes muito maior do que a que eu esperava comer.
Nos artigos que li, vi resultados com p> 0,05 após a validação chamada "falsos positivos". No entanto, não é ainda mais provável que eu tenha escolhido uma hipótese para testar com uma hipótese nula correspondente falsa quando os dados experimentais têm um p <0,50, que é baixo, mas> 0,05, e não são a hipótese nula e a hipótese de pesquisa estatisticamente incerta / insignificante (dado o ponto de corte de significância estatística convencional) entre 0,05 <p < 0,95, seja qual for o inverso de p <0,05, dada a assimetria apontada no link do @ NickStauner ?
Vamos chamar esse número A e defini-lo como o valor p que diz a mesma coisa sobre a probabilidade de você ter escolhido uma hipótese nula verdadeira para seu experimento / análise que um valor p de 0,05 diz sobre a probabilidade de você " escolhi uma hipótese não nula verdadeira para seu experimento / análise. Não 0,05 <p <Apenas diga: "O tamanho da sua amostra não era grande o suficiente para responder à pergunta e você não poderá julgar a importância do aplicativo / do mundo real até obter uma amostra maior e obter suas estatísticas significado resolvido "?
Em outras palavras, não seria correto chamar um resultado definitivamente falso (em vez de simplesmente não suportado) se e somente se p> A?
Isso parece direto para mim, mas esse uso generalizado me diz que eu posso estar errado. Sou eu:
a) interpretando mal a matemática;
b) reclamando de uma convenção inofensiva, se não exatamente correta;
c) completamente correta; ou
d) outra?
Reconheço que isso soa como um pedido de opiniões, mas parece uma pergunta com uma resposta matematicamente correta e definitiva (quando é definido um limite de significância) que eu ou (quase) todo mundo está errado.
fonte
Respostas:
Sua pergunta é baseada em uma premissa falsa:
Um valor-p não é uma probabilidade de que a hipótese nula seja verdadeira. Por exemplo, se você tomou mil casos em que a hipótese nula é verdadeira, metade deles terá
p < .5
. Aqueles metade vai tudo ser nulo.De fato, a idéia que
p > .95
significa que a hipótese nula é "provavelmente verdadeira" é igualmente enganosa. Se a hipótese nula for verdadeira, a probabilidadep > .95
é exatamente a mesma que a probabilidadep < .05
.ETA: sua edição esclarece qual é o problema: você ainda tem o problema acima (que está tratando um valor-p como uma probabilidade posterior, quando não está). É importante notar que essa não é uma distinção filosófica sutil (como eu acho que você está sugerindo na sua discussão sobre os bilhetes de loteria): tem enormes implicações práticas para qualquer interpretação dos valores-p.
Mas não é uma transformação que você pode executar em p-valores que você vai chegar ao que você está procurando, e é chamado a taxa de descoberta de falsas local. (Como descrito neste belo artigo , é o equivalente freqüente da "probabilidade de erro posterior", então pense dessa maneira, se quiser).
Vamos trabalhar com um exemplo concreto. Digamos que você esteja realizando um teste t para determinar se uma amostra de 10 números (de uma distribuição normal) tem uma média de 0 (um teste t de uma amostra e frente e verso). Primeiro, vamos ver como é a distribuição do valor p quando a média realmente é zero, com uma curta simulação R:
Como podemos ver, os valores p nulos têm uma distribuição uniforme (igualmente provável em todos os pontos entre 0 e 1). Essa é uma condição necessária dos valores-p: na verdade, é precisamente o que os valores-p significam! (Dado que o nulo é verdadeiro, existe uma chance de 5% de ser menor que 0,05, uma chance de 10% de ser menor que 0,1 ...)
Agora vamos considerar os casos de hipótese alternativos em que o nulo é falso. Agora, isso é um pouco mais complicado: quando o nulo é falso, "quão falso" é? A média da amostra não é 0, mas é 0,5? 1? 10? Varia aleatoriamente, às vezes pequeno e às vezes grande? Por uma questão de simplicidade, digamos que seja sempre igual a 0,5 (mas lembre-se dessa complicação, isso será importante mais tarde):
Observe que a distribuição agora não é uniforme: é deslocada para 0! No seu comentário, você menciona uma "assimetria" que fornece informações: é essa assimetria.
Imagine que você conheceu as duas distribuições, mas está trabalhando com um novo experimento e também tem um prévio de que há 50% de chance de ser nulo e 50% de alternativa. Você obtém um valor-p de 0,7. Como você pode obter isso e o valor de p para uma probabilidade?
O que você deve fazer é comparar as densidades :
E observe seu valor-p:
Essa razão entre a densidade nula e a densidade alternativa pode ser usada para calcular a taxa de descoberta falsa local : quanto maior o nulo for relativo à alternativa, maior o FDR local. Essa é a probabilidade de a hipótese ser nula (tecnicamente, ela tem uma interpretação freqüentista mais rigorosa, mas vamos mantê-la simples aqui). Se esse valor é muito alto, então você pode fazer a interpretação "a hipótese nula é quase certamente verdade." Na verdade, você pode estabelecer um limite de 0,05 e 0,95 do FDR local: isso teria as propriedades que você está procurando. (E como o FDR local aumenta monotonicamente com o valor-p, pelo menos se você estiver fazendo isso corretamente, isso se traduzirá em alguns limites A e B, onde você pode dizer "
Agora, já posso ouvi-lo perguntando "então por que não usamos isso em vez de valores-p?" Duas razões:
Você não precisa de nenhum deles para um teste de valor p, e um teste de valor p ainda permite evitar falsos positivos (que é seu objetivo principal). Agora, é possível estimar esses dois valores em vários testes de hipóteses, quando você possui milhares de valores-p (como um teste para cada um dos milhares de genes: veja este artigo ou este artigo, por exemplo), mas não quando você está fazendo um único teste.
Por fim, você pode dizer "O artigo ainda não está errado em dizer que uma replicação que leva a um valor de p acima de 0,05 é necessariamente um falso positivo?" Bem, embora seja verdade que obter um valor p de 0,04 e outro valor p de 0,06 não significa realmente que o resultado original estava errado, na prática, é uma métrica razoável a ser escolhida. Mas, de qualquer forma, você pode ficar feliz em saber que outras pessoas têm dúvidas sobre isso! O artigo a que você se refere é um pouco controverso em estatística: este artigo usa um método diferente e chega a uma conclusão muito diferente sobre os valores-p da pesquisa médica, e esse estudo foi criticado por alguns bayesianos proeminentes (e assim por diante ...) Portanto, embora sua pergunta se baseie em algumas suposições incorretas sobre valores-p, acho que examina uma suposição interessante por parte do artigo que você cita.
fonte
Pode-se argumentar que a hipótese nula, como literalmente declarada, geralmente é mais provável do que não estar errada, porque as hipóteses nulas são mais comumente, literalmente, hipóteses de efeito zero . (Para alguns contra-exemplos úteis, consulte as respostas para: " Grandes conjuntos de dados são inadequados para o teste de hipóteses? ") Questões filosóficas, como o efeito borboleta, ameaçam a validade literal de qualquer hipótese; portanto, o nulo é útil geralmente como base de comparação para uma hipótese alternativa de algum efeito diferente de zero. Essa hipótese alternativa pode permanecer mais plausível que o nulo após a coleta de dados que seria improvável se o nulo fosse verdadeiro. Portanto, os pesquisadores normalmente inferem o apoio a uma hipótese alternativa a partir de evidências contra o nulo, mas não é isso que os valores p quantificam diretamente ( Wagenmakers, 2007 ) .
Como você suspeita, a significância estatística é uma função do tamanho da amostra , bem como do tamanho e consistência do efeito. (Veja a resposta da @ gung à recente pergunta: " Como pode um teste t de ser estatisticamente significativa, se a diferença média é quase 0? ") As perguntas que muitas vezes a intenção de pedir de nossos dados são: "Qual é o efeito dep p
x
ony
? " Por várias razões (incluindo IMO, programas educacionais equivocados e de alguma forma deficientes em estatística, especialmente como ensinados por não estatísticos), geralmente nos encontramos perguntando literalmente a pergunta vagamente relacionada: "Qual é a probabilidade de amostragem de dados como os meus aleatoriamente de uma população em quex
não afetay
Como os dados geralmente devem representar observações empiricamente factuais, eles não devem ser falsos; apenas inferências sobre eles devem enfrentar esse risco, idealmente. (É claro que o erro de medição ocorre muito naturalmente, mas esse problema está fora do escopo desta resposta, portanto, além de mencioná-lo aqui, deixarei em branco.) Sempre existe o risco de fazer uma inferência falsa positiva sobre o nulo ser menos útil do que a hipótese alternativa, pelo menos, a menos que o inferidor saiba que o nulo é verdadeiro. Somente na circunstância bastante difícil de conceber que o nulo seja literalmente verdadeiro é que uma inferência a favor de uma hipótese alternativa seria definitivamente falsa ... pelo menos, tanto quanto posso imaginar no momento.
Claramente, o amplo uso ou convenção não é a melhor autoridade em validade epistêmica ou inferencial. Até os recursos publicados são falíveis; veja, por exemplo, Falácia na definição de valor-p . Sua referência ( Hurlbert e Lombardi, 2009 ) também oferece uma exposição interessante desse princípio (página 322):
Re: sua pergunta de múltipla escolha, eu seleciono
d
. Você pode ter interpretado mal alguns conceitos aqui, mas certamente não está sozinho, e vou deixar o julgamento para você, pois só você sabe no que realmente acredita. A má interpretação implica certa quantidade de certeza, enquanto que fazer uma pergunta implica o contrário, e esse impulso de questionar quando incerto é bastante louvável e longe de onipresente, infelizmente. Essa questão da natureza humana faz com que o incorreto de nossas convenções seja inofensivo e mereça reclamações como as aqui mencionadas. (Agradecemos em parte a você!) No entanto, sua proposta também não está completamente correta.Referências
- Goodman, SN (1992). Um comentário sobre replicação, valores- P e evidência. Statistics in Medicine, 11 (7), 875-879.
- Goodman, SN (2001). De P -Valores e Bayes: Uma proposta modesta. Epidemiology, 12 (3), 295-297. Recuperado em http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Uma dúzia suja: equívocos de doze valores de P. Seminários em Hematologia, 45 (3), 135–140. Recuperado em http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. e Greenberg, DA (2007). Não replicação de estudos de associação: “pseudo-falhas” para replicar? Genetics in Medicine, 9 (6), 325-331. Recuperado em http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH, e Lombardi, CM (2009). Colapso final do referencial teórico da decisão Neyman – Pearson e ascensão do neoFisherian. Annales Zoologici Fennici, 46 (5), 311-349. Recuperado em http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). Para P ou não para P: Sobre a natureza evidencial dos valores de P e seu lugar na inferência científica. arXiv: 1311.0081 [stat.ME]. Recuperado dehttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Bayesianos em ensaios clínicos: Adormecido no interruptor. Statistics in Medicine, 27 (4), 469-482.
- Nuzzo, R. (2014, 12 de fevereiro). Método científico: erros estatísticos. Nature News, 506 (7487). Recuperado em http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Wagenmakers, EJ (2007). Uma solução prática para os problemas difundidos dos valores de p . Psychonomic Bulletin & Review, 14 (5), 779-804. Recuperado em http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .
fonte