É errado referir-se a resultados como "quase" ou "um pouco" significativos?

13

O consenso geral sobre uma pergunta semelhante, é errado referir-se aos resultados como sendo "altamente significativos"? é que "altamente significativo" é uma maneira válida, embora não específica, de descrever a força de uma associação que possui um valor p muito abaixo do seu limite de significância predefinido. No entanto, que tal descrever valores-p ligeiramente acima do seu limite? Vi alguns artigos usarem termos como "um pouco significativo", "quase significativo", "aproximando-se do significado" e assim por diante. Acho esses termos um pouco insolentes, em alguns casos, uma maneira simples e fraudulenta de extrair um resultado significativo de um estudo com resultados negativos. Esses termos são aceitáveis ​​para descrever resultados que "simplesmente perdem" seu valor de p-cut?

Wang nuclear
fonte
3
Não acredito que alguém tenha sugerido "significado" qualificado para descrever a "força de uma associação"; o último parece mais uma medida do tamanho do efeito. De qualquer forma, veja aqui uma lista completa.
Scortchi - Restabelecer Monica
1
@ Scortchi - Pelo meu entendimento, um valor p muito pequeno é altamente significativo, significando uma forte associação entre a variável em questão e o alvo. Este é o resultado de um grande tamanho de efeito, muitos dados ou ambos. Para valores de p grandes, a evidência que sustenta uma associação entre variável e alvo é fraca. Além disso, adore essa lista no seu link.
Nuclear Wang
9
Obter um valor p muito pequeno para um tamanho de efeito pequeno dificilmente poderia ser chamado de "associação forte". Seria apenas uma associação detectável .
whuber
2
Já vi pessoas usando essas frases muito na indústria, mas não em trabalhos acadêmicos.
Aksakal quase certamente binário
1
Talvez seu desconforto venha de acreditar que os valores de p (ou qualquer outro número derivado de uma amostra) são medidas precisas de alguma coisa.
Eric Towers

Respostas:

14

Se você deseja permitir que a "significância" seja admitida em graus, é razoável o suficiente ("um tanto significativa", "razoavelmente significativa"), mas evite frases que sugiram que você ainda esteja apegado à idéia de um limite, como "quase significativo" , "aproximando-se do significado" ou "à beira do significado" (meu favorito de "Ainda não é significativo" no erro provável do blog ), se você não quiser parecer desesperado.

Scortchi - Restabelecer Monica
fonte
9
(+1) para o link. Mas acho que o destaque da criatividade poética está "oscilando à beira da significância (p = 0,06)" .
Alecos Papadopoulos
1
@AlecosPapadopoulos: Você está certo, embora "flertar com níveis convencionais de significância" e "pairando mais próximo da significância estatística" mereçam menções honrosas. "Quase significativo" é talvez um vencedor em uma categoria diferente.
Scortchi - Restabelece Monica
4
Na verdade, os dois primeiros são de verdadeiro espírito cinematográfico, o primeiro do filme "Gigolo Estatístico" (quem mais flertaria com um nível convencional ?), Enquanto o segundo do filme "Morrer na Cauda", onde vemos o abutre ameaçador (valor p) pairando sobre o herói moribundo (significância estatística).
Alecos Papadopoulos
1
Pessoalmente, eu abandonaria a palavra 'significativo' no meu fraseado e chamaria p = 0,06 de 'bastante interessante'. Certo ou errado, quando encontrei valores-p pela primeira vez em um curso Six Sigma, o instrutor sugeriu que, para 0,05 <= 0,1, o rótulo correto era 'mais dados necessários' (com base em um cenário industrial em que pontos de dados adicionais são difíceis de adquirir , tão completamente diferente de qualquer cenário de 'Big Data'
Robert de Graaf
6

Na minha perspectiva, a questão se resume ao que realmente significa realizar um teste de significância. O teste de significância foi concebido como um meio de tomar a decisão de rejeitar a hipótese nula ou falhar em rejeitá-la. O próprio Fisher introduziu a infame regra de 0,05 para tomar essa decisão (arbitrária).

Basicamente, a lógica do teste de significância é que o usuário precisa especificar um nível alfa para rejeitar a hipótese nula (convencionalmente 0,05) antes de coletar os dados . Depois de concluir o teste de significância, o usuário rejeita o nulo se o valor de p for menor que o nível alfa (ou falhar em rejeitá-lo de outra forma).

A razão pela qual você não pode declarar que um efeito é altamente significativo (digamos, no nível 0,001) é porque você não pode encontrar evidências mais fortes do que se propôs a encontrar. Portanto, se você definir seu nível de alfa em 0,05 antes do teste, poderá encontrar evidências apenas no nível de 0,05, independentemente do tamanho dos seus valores de p. Da mesma forma, falar de efeitos "um pouco significativos" ou "aproximando-se da significância" também não faz muito sentido, porque você escolheu esse critério arbitrário de 0,05. Se você interpretar a lógica do teste de significância muito literalmente, algo maior que 0,05 não será significativo.

Concordo que termos como "aproximando-se da significância" são frequentemente usados ​​para melhorar as perspectivas de publicação. No entanto, não creio que os autores possam ser responsabilizados por isso, porque a atual cultura de publicação em algumas ciências ainda depende muito do "Santo Graal" de 0,05.

Algumas dessas questões são discutidas em:

Gigerenzer, G. (2004). Estatísticas irracionais. The Journal of Socio-Economics, 33 (5), 587-606.

Royall, R. (1997). Evidência estatística: um paradigma de probabilidade (Vol. 71). Pressione CRC.

Martin R. Vasilev
fonte
1
Você está misturando a filosofia da ciência dos pescadores com a abordagem de Neyman / Pearson se adicionar um nível alfa ao teste de significância de Fisher.
RBirkelbach
5

Essa inclinação escorregadia chama de volta à estrutura de Fisher vs Neyman / Pearson para teste de significância de hipótese nula (NHST). Por um lado, quer-se fazer uma avaliação quantitativa de quão improvável é um resultado sob a hipótese nula (por exemplo, tamanhos de efeito). Por outro lado, no final do dia, você deseja uma decisão discreta sobre se seus resultados são ou não provavelmente passados ​​apenas pelo acaso. Acabamos com um tipo de abordagem híbrida que não é muito satisfatória.

Na maioria das disciplinas, o p convencional para significância é definido em 0,05, mas não há realmente base para o porquê disso. Quando analiso um artigo, não tenho absolutamente nenhum problema com um autor que chame 0,06 de significância, ou mesmo 0,07, desde que a metodologia seja sólida, e toda a imagem, incluindo todas as análises, figuras etc., conte uma história consistente e crível. O problema é que os autores tentam criar uma história com dados triviais com pequenos tamanhos de efeito. Por outro lado, eu posso não "acreditar" completamente que um teste é praticamente significativo mesmo quando atinge p <0,05 de significância convencional. Um colega meu disse uma vez: "Suas estatísticas devem simplesmente fazer backup do que já é aparente em seus números".

Dito isso, acho que Vasilev está correto. Dado o sistema de publicação quebrado, é necessário incluir valores de p e, portanto, é necessário usar a palavra 'significativo' para ser levada a sério, mesmo que exija adjetivos como "marginalmente" (o que eu prefiro). Você sempre pode lutar na revisão por pares, mas precisa chegar primeiro.

HEITZ
fonte
5

A diferença entre dois valores de p em si normalmente não é significativa. Portanto, não importa se o seu valor p é 0,05, 0,049, 0,051 ...

Com relação aos valores de p como uma medida da força de associação: Um valor de p não é diretamente uma medida de força de associação. Um valor-p é a probabilidade de encontrar dados tão extremos ou mais extremos quanto os dados que você observou, dado que o parâmetro tem a hipótese de ser 0 (se alguém estiver interessado na hipótese nula - veja o comentário de Nick Cox). No entanto, essa não costuma ser a quantidade na qual o pesquisador está interessado. Muitos pesquisadores estão bastante interessados ​​em responder perguntas como "qual é a probabilidade do parâmetro ser maior do que algum valor de corte escolhido?" Se é disso que você está interessado, é necessário incorporar informações prévias adicionais ao seu modelo.

RBirkelbach
fonte
6
Eu concordo com o espírito disso, mas as letras pequenas, como sempre, precisam de vigilância total. "dado que o parâmetro é assumido como 0": frequentemente, mas nem sempre. Os valores P também podem ser calculados para outras hipóteses. Além disso, para "assumido", leia "hipotético".
Nick Cox
Você está totalmente certo - eu vou editar minha resposta!
RBirkelbach
3

p<αp>α (não é a força do efeito, é claro). Para um "contínuo", "quase significativo" é uma maneira sensata de descrever um resultado com um valor-p moderado. O problema surge quando as pessoas misturam essas duas filosofias - ou pior, não sabem que ambas existem. (A propósito, as pessoas geralmente assumem esses mapas de maneira clara para Neyman / Pearson e Fisher, mas não o fazem; daí meus termos reconhecidamente desajeitados para eles). Mais detalhes sobre isso em uma postagem no blog sobre este assunto aqui:https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-signific--ididous/

Stephen Heard
fonte
1

Costumo pensar que dizer que algo é quase estatisticamente significativo não é correto do ponto de vista técnico. Depois de definir seu nível de tolerância, o teste estatístico de significância é definido. Você precisa voltar à ideia de distribuições de amostragem. Se o seu nível de tolerância é de 0,05 e você obtém um valor-p de 0,053, é por acaso que a amostra utilizada produziu essa estatística. Você poderia muito bem obter outra amostra que talvez não produza os mesmos resultados. Acredito que a probabilidade disso ocorra é baseada no nível de tolerância definido e não na estatística da amostra. Lembre-se de que você está testando amostras em relação a um parâmetro populacional e as amostras têm sua própria distribuição de amostragem. Então, na minha opinião, ou algo é estatisticamente significativo ou não é.

Chris Kwaramba
fonte
0

[0,1]H0p>α . Como você não rejeita seu nulo, você deve assumir um valor p uniformemente distribuído, um valor maior ou menor é essencialmente sem sentido.

H1 mas a distribuição depende do parâmetro.

Veja, por exemplo, a Wikipedia .

serpente
fonte
Eu não te sigo bem. Sim, em qualquer distribuição contínua, a probabilidade de obter um resultado de exatamente 0,051 é igual à probabilidade de obter um resultado de exatamente 1 - é zero. Mas o teste de hipóteses examina a probabilidade de ver um valor pelo menos tão extremo quanto o observado. Você sempre encontrará um valor p pelo menos tão extremo quanto 1, mas é muito menos provável ver um valor p tão extremo quanto 0,051. O que torna essa diferença "sem sentido"?
Nuclear Wang
Sob o valor nulo, é tão provável observar um valor p no intervalo [0,05,0,051] quanto observar um valor p no intervalo [0,999,1]. Observar um valor-p mais próximo do limite não é mais uma evidência contra o 0 do que observar qualquer outro valor-p fora da área de rejeição.
snaut
Alguns chamam um valor de p de 0,05 significativo, outros usam 0,01 ou 0,1 como limite. Assim, entre três pesquisadores que fazem a mesma análise e encontram um valor p de 0,03, dois podem chamá-lo de significativo e um não. Se todos encontrarem um valor-p de 0,91, ninguém o chamará de significativo. Um valor-p mais próximo do limite significa que mais indivíduos considerarão que existem evidências suficientes para rejeitar o nulo. Não vejo por que p = 0,051 ep = 1 deve ser indistinguível em termos de suporte ao H1 - algumas pessoas justificadamente apoiarão o H1 com p = 0,051; ninguém fará isso com p = 1.
Nuclear Wang