Estou tentando entender a alegação geral apresentada em Taleb, 2016, A meta-distribuição de valores-p padrão .
Nele, Taleb apresenta o seguinte argumento para a falta de confiabilidade do valor-p (como eu o entendo):
Um procedimento de estimativa operando em pontos de dados provenientes de alguma distribuição gera um valor de p. Se extrairmos mais n pontos desta distribuição e gerar outro valor p, podemos calcular a média desses valores p obtendo no limite o chamado "verdadeiro valor p".
Esse "valor p verdadeiro" mostra uma variação perturbadora alta, de modo que um procedimento de distribuição + com "valor p verdadeiro" relatará 60% do tempo com um valor p <0,05.
Pergunta : como isso pode ser reconciliado com o argumento tradicional em favor do valor- . Pelo que entendi, o valor p deve dizer qual a porcentagem de tempo que seu procedimento fornecerá o intervalo correto (ou o que for). No entanto, este artigo parece argumentar que essa interpretação é enganosa, pois o valor p não será o mesmo se você executar o procedimento novamente.
Estou perdendo o ponto?
fonte
Respostas:
Um valor-p é uma variável aleatória.
Sob (pelo menos para uma estatística distribuída continuamente), o valor p deve ter uma distribuição uniformeH0 0
Para um teste consistente, em o valor de p deve ir para 0 no limite, à medida que o tamanho da amostra aumenta em direção ao infinito. Da mesma forma, à medida que os tamanhos dos efeitos aumentam, as distribuições de valores-p também tendem a mudar para 0, mas sempre serão "dispersas".H1
A noção de um valor p "verdadeiro" parece absurdo para mim. O que significaria, sob ou ? Você pode, por exemplo, dizer que quer dizer " a média da distribuição dos valores-p em um determinado tamanho de efeito e tamanho da amostra ", mas, em que sentido você tem convergência onde a propagação deve encolher? Não é como se você pudesse aumentar o tamanho da amostra enquanto a mantinha constante.H0 0 H1
Aqui está um exemplo com uma amostra de testes t e um pequeno tamanho de efeito em . Os valores de p são quase uniformes quando o tamanho da amostra é pequeno e a distribuição concentra-se lentamente em 0, conforme o tamanho da amostra aumenta.H1
É exatamente assim que os valores de p devem se comportar - para um nulo falso, à medida que o tamanho da amostra aumenta, os valores de p devem ficar mais concentrados em valores baixos, mas não há nada que sugira que a distribuição dos valores necessários quando você cometer um erro do tipo II - quando o valor-p estiver acima do seu nível de significância - de alguma forma deve acabar "próximo" desse nível de significância.
O que, então, seria um valor-p ser uma estimativa de ? Não é como se estivesse convergindo para algo (diferente de 0). Não está totalmente claro por que se esperaria que um valor-p tivesse baixa variação em qualquer lugar, mas quando se aproxima de 0, mesmo quando a potência é muito boa (por exemplo, para , potência no caso n = 1000, há perto de 57%, mas ainda é perfeitamente possível obter um valor p próximo de 1)α = 0,05
Muitas vezes, é útil considerar o que está acontecendo, tanto com a distribuição de qualquer estatística de teste usada sob a alternativa quanto com a aplicação do cdf sob o nulo, como uma transformação que fará na distribuição (que fornecerá a distribuição do valor p em a alternativa específica). Quando você pensa nesses termos, muitas vezes não é difícil ver por que o comportamento é como é.
O problema que vejo não é tanto o fato de existir algum problema inerente aos valores-p ou ao teste de hipóteses, é mais um caso de o teste de hipóteses ser uma boa ferramenta para o seu problema específico ou se algo mais seria mais apropriado em qualquer caso específico - essa não é uma situação para polêmicas abrangentes, mas uma consideração cuidadosa do tipo de perguntas que os testes de hipóteses abordam e as necessidades específicas de sua circunstância. Infelizmente, raramente são feitas considerações cuidadosas sobre esses problemas - muitas vezes, é exibida uma pergunta sobre a forma "que teste eu uso para esses dados?" sem considerar o que poderia ser a questão de interesse, muito menos se algum teste de hipótese é uma boa maneira de abordá-lo.
Uma dificuldade é que os testes de hipóteses são amplamente mal compreendidos e amplamente mal utilizados; as pessoas muitas vezes pensam que nos dizem coisas que não dizem. O valor de p é possivelmente a coisa mais incompreendida nos testes de hipóteses.
fonte
A resposta de Glen_b está no local (+1; considere a minha suplementar). O artigo que você menciona por Taleb é topicamente muito semelhante a uma série de artigos na literatura de psicologia e estatística sobre que tipo de informação você pode obter ao analisar distribuições de valores-p (o que os autores chamam de curva-p ; consulte seu site com um vários recursos, incluindo um aplicativo de análise de curva p aqui ).
Os autores propõem dois usos principais da curva p:
Portanto, quanto à sua pergunta mais ampla sobre:
Eu diria que métodos como o de Taleb (e outros) encontraram uma maneira de redefinir os valores-p, para que possamos obter informações úteis sobre literaturas inteiras analisando grupos de valores-p, enquanto um valor-p por si só pode ser muito mais limitado em sua utilidade.
Referências
Simonsohn, U., Nelson, LD, e Simmons, JP (2014a). Curva-P: uma chave para a gaveta de arquivos. Journal of Experimental Psychology: General , 143 , 534-547.
Simonsohn, U., Nelson, LD, e Simmons, JP (2014b). Curva-P e tamanho do efeito: corrigindo o viés de publicação usando apenas resultados significativos. Perspectives on Psychological Science , 9 , 666-681.
Simonsohn, U., Simmons, JP & Nelson, LD (2015). Melhores curvas P: Tornando a análise da curva P mais robusta a erros, fraudes e hackers P ambiciosos, uma resposta a Ulrich e Miller (2015). Journal of Experimental Psychology: General , 144 , 1146-1152.
fonte