Estive lendo sobre valores- , taxas de erro tipo 1, níveis de significância, cálculos de potência, tamanhos de efeito e o debate Fisher vs Neyman-Pearson. Isso me deixou um pouco sobrecarregado. Peço desculpas pelo muro de texto, mas senti que era necessário fornecer uma visão geral do meu entendimento atual desses conceitos, antes de passar para minhas perguntas reais.
Pelo que pude reunir, um valor- é simplesmente uma medida de surpresa, a probabilidade de obter um resultado pelo menos tão extremo, dado que a hipótese nula é verdadeira. Fisher originalmente pretendia que fosse uma medida contínua.
Na estrutura de Neyman-Pearson, você seleciona um nível de significância antecipadamente e o usa como um ponto de corte (arbitrário). O nível de significância é igual à taxa de erro do tipo 1. É definido pela frequência de longo prazo, ou seja, se você repetir um experimento 1000 vezes e a hipótese nula for verdadeira, cerca de 50 desses experimentos resultariam em um efeito significativo , devido à variabilidade da amostra. Ao escolher um nível de significância, estamos nos protegendo contra esses falsos positivos com uma certa probabilidade. valores tradicionalmente não aparecem nessa estrutura.
Se encontrarmos um valor de 0,01, isso não significa que a taxa de erro do tipo 1 seja 0,01, o erro do tipo 1 será declarado a priori. Acredito que este seja um dos principais argumentos no debate Fisher vs NP, porque os valores de são frequentemente relatados como 0,05 *, 0,01 **, 0,001 ***. Isso pode induzir as pessoas a dizerem que o efeito é significativo em um determinado valor , em vez de em um determinado valor de significância.p p
Também percebo que o valor- é uma função do tamanho da amostra. Portanto, não pode ser usado como uma medida absoluta. Um pequeno valor poderia apontar para um efeito pequeno e não relevante em um experimento de amostra grande. Para combater isso, é importante executar um cálculo de tamanho de poder / efeito ao determinar o tamanho da amostra para sua experiência. valores nos dizem se existe um efeito, não qual o seu tamanho. Veja Sullivan 2012 .p P
Minha pergunta: como posso reconciliar os fatos de que o valor- é uma medida de surpresa (menor = mais convincente) e, ao mesmo tempo, não pode ser visto como uma medida absoluta?
O que me deixa confuso é o seguinte: podemos ter mais confiança em um pequeno valor que em um grande? No sentido da pesca, eu diria que sim, estamos mais surpresos. Na estrutura do PN, escolher um nível de significância menor implicaria que estamos nos protegendo mais fortemente contra falsos positivos.
Por outro lado, os valores de dependem do tamanho da amostra. Eles não são uma medida absoluta. Portanto, não podemos simplesmente dizer que 0,001593 é mais significativo que 0,0439. No entanto, é isso o que estaria implícito na estrutura de Fisher: ficaríamos mais surpresos com um valor tão extremo. Há até discussões sobre o termo altamente significativo ser um termo impróprio: É errado referir-se a resultados como "altamente significativos"?
Ouvi dizer que os valores de em alguns campos da ciência são considerados importantes apenas quando menores que 0,0001, enquanto em outros campos valores em torno de 0,01 já são considerados altamente significativos.
Perguntas relacionadas:
Respostas:
Os valores menores são "mais convincentes"? Sim, claro que são.p
Na estrutura de Fisher, o valor é uma quantificação da quantidade de evidência em relação à hipótese nula. A evidência pode ser mais ou menos convincente; quanto menor o valor , mais convincente é. Observe que em qualquer experimento com tamanho fixo de amostra , o valor- é monotonicamente relacionado ao tamanho do efeito, como @Scortchi bem indica em sua resposta (+1). Portanto, valores menores correspondem a tamanhos de efeito maiores; é claro que eles são mais convincentes!p n p pp p n p p
Na estrutura de Neyman-Pearson, o objetivo é obter uma decisão binária: a evidência é "significativa" ou não. Ao escolher o limite , garantimos que não teremos mais que falsos positivos. Observe que pessoas diferentes podem ter diferentes em mente ao olhar para os mesmos dados; talvez quando eu leio um artigo de um campo sobre o qual sou cético, eu pessoalmente não consideraria resultados "significativos" com, . Meu pessoal pode estar definido como ou algo assim. Obviamente, quanto menor o relatadoα α p = 0,03 α 0,001 p pα α α p=0.03 α 0.001 p -valor, os leitores mais céticos serão capazes de convencer! Portanto, novamente, os valores mais baixos são mais convincentes.p
A prática padrão atualmente é combinar as abordagens de Fisher e Neyman-Pearson: se , os resultados serão chamados "significativos" e o valor- é [exatamente ou aproximadamente] relatado e usado como uma medida de convencimento (marcando com estrelas, usando expressões como "altamente significativas" etc.); se , os resultados serão chamados "não significativos" e é isso.p p > αp<α p p>α
Isso geralmente é chamado de "abordagem híbrida" e, na verdade, é híbrido. Algumas pessoas argumentam que esse híbrido é incoerente; Eu costumo discordar. Por que seria inválido fazer duas coisas válidas ao mesmo tempo?
Leitura adicional:
O "híbrido" entre as abordagens de Fisher e Neyman-Pearson para testes estatísticos é realmente uma "confusão incoerente"? - minha pergunta sobre o "híbrido". Isso gerou alguma discussão, mas ainda não estou satisfeito com nenhuma das respostas e pretendo voltar a esse tópico em algum momento.
É errado referir-se aos resultados como sendo "altamente significativos"? - veja a resposta de ontem, que está essencialmente dizendo: não está errado (mas talvez um pouco desleixado).
Por que os valores p mais baixos não são mais evidências contra o nulo? Argumentos de Johansson 2011 - um exemplo de um artigo anti-Fisher argumentando que os valores de não fornecem evidências contra o nulo; a resposta principal do @Momo faz um bom trabalho ao desmistificar os argumentos. Minha resposta para a pergunta do título é: Mas é claro que são.p
fonte
Não sei o que significam valores menores de p serem "melhores" ou estarmos "mais confiantes" neles. Mas considerar os valores de p como uma medida de quão surpresos deveríamos estar com os dados, se acreditarmos na hipótese nula, parece bastante razoável; o valor p é uma função monotônica da estatística de teste que você escolheupara medir discrepância com a hipótese nula na direção em que você está interessado, calibrando-a em relação às suas propriedades sob um procedimento relevante de amostragem de uma população ou atribuição aleatória de tratamentos experimentais. "Significância" tornou-se um termo técnico para se referir aos valores de p estarem acima ou abaixo de algum valor especificado; assim, mesmo aqueles que não têm interesse em especificar níveis de significância e aceitar ou rejeitar hipóteses tendem a evitar frases como "altamente significativo" - mera adesão à convenção.
Em relação à dependência dos valores-p no tamanho da amostra e no tamanho do efeito, talvez surja alguma confusão, porque, por exemplo, pode parecer que 474 cabeças de 1.000 jogadas sejam menos surpreendentes do que 2 em 10 para alguém que acha que a moeda é justa - afinal de contas a proporção da amostra apenas se desvia um pouco de 50% no caso anterior - mas os valores de p são praticamente os mesmos. Mas verdadeiro ou falso não admite graus; o valor-p está fazendo o que é solicitado: geralmente os intervalos de confiança para um parâmetro são realmente o que se deseja avaliar com que precisão um efeito foi medido e a importância prática ou teórica de sua magnitude estimada.
fonte
Obrigado pelos comentários e sugestões de leituras. Tive mais tempo para refletir sobre esse problema e acredito que consegui isolar minhas principais fontes de confusão.
Inicialmente, pensei que havia uma dicotomia entre ver o valor-p como uma medida de surpresa versus afirmar que não é uma medida absoluta. Agora percebo que essas afirmações não necessariamente se contradizem. O primeiro permite-nos estar mais ou menos confiantes na extremidade (até mesmo antipatia?) De um efeito observado, em comparação com outros resultados hipotéticos do mesmo experimento. Enquanto o último apenas nos diz que o que pode ser considerado um valor p convincente em um experimento, pode não ser impressionante em outro, por exemplo, se o tamanho da amostra diferir.
O fato de alguns campos da ciência utilizarem uma linha de base diferente de valores-p fortes pode ser um reflexo da diferença nos tamanhos de amostra comuns (astronomia, experimentos clínicos, psicológicos) e / ou uma tentativa de transmitir o tamanho do efeito em um p- valor. Mas o último é uma fusão incorreta dos dois.
A importância é uma pergunta de sim / não com base no alfa escolhido antes do experimento. Um valor p não pode, portanto, ser mais significativo que outro, pois é menor ou maior que o nível de significância escolhido. Por outro lado, um valor p menor será mais convincente do que um valor maior (para um tamanho de amostra semelhante / experimento idêntico, como mencionado no meu primeiro ponto).
Intervalos de confiança transmitem inerentemente o tamanho do efeito, tornando-os uma boa opção para se proteger contra os problemas mencionados acima.
fonte
O valor p não pode ser uma medida de surpresa, porque é apenas uma medida de probabilidade quando o nulo é verdadeiro. Se o nulo for verdadeiro, cada valor possível de p é igualmente provável. Não se pode surpreender nenhum valor-p antes de decidir rejeitar o nulo. Depois que se decide que há um efeito, o significado do valor-p desaparece. Apenas o relata como um elo de uma cadeia indutiva relativamente fraca para justificar a rejeição, ou não, do nulo. Mas se foi rejeitado, na verdade não tem mais sentido.
fonte