O consenso geral sobre uma pergunta semelhante, é errado referir-se aos resultados como sendo "altamente significativos"? é que "altamente significativo" é uma maneira válida, embora não específica, de descrever a força de uma associação que possui um valor p muito abaixo do seu limite de significância predefinido. No entanto, que tal descrever valores-p ligeiramente acima do seu limite? Vi alguns artigos usarem termos como "um pouco significativo", "quase significativo", "aproximando-se do significado" e assim por diante. Acho esses termos um pouco insolentes, em alguns casos, uma maneira simples e fraudulenta de extrair um resultado significativo de um estudo com resultados negativos. Esses termos são aceitáveis para descrever resultados que "simplesmente perdem" seu valor de p-cut?
fonte
Respostas:
Se você deseja permitir que a "significância" seja admitida em graus, é razoável o suficiente ("um tanto significativa", "razoavelmente significativa"), mas evite frases que sugiram que você ainda esteja apegado à idéia de um limite, como "quase significativo" , "aproximando-se do significado" ou "à beira do significado" (meu favorito de "Ainda não é significativo" no erro provável do blog ), se você não quiser parecer desesperado.
fonte
Na minha perspectiva, a questão se resume ao que realmente significa realizar um teste de significância. O teste de significância foi concebido como um meio de tomar a decisão de rejeitar a hipótese nula ou falhar em rejeitá-la. O próprio Fisher introduziu a infame regra de 0,05 para tomar essa decisão (arbitrária).
Basicamente, a lógica do teste de significância é que o usuário precisa especificar um nível alfa para rejeitar a hipótese nula (convencionalmente 0,05) antes de coletar os dados . Depois de concluir o teste de significância, o usuário rejeita o nulo se o valor de p for menor que o nível alfa (ou falhar em rejeitá-lo de outra forma).
A razão pela qual você não pode declarar que um efeito é altamente significativo (digamos, no nível 0,001) é porque você não pode encontrar evidências mais fortes do que se propôs a encontrar. Portanto, se você definir seu nível de alfa em 0,05 antes do teste, poderá encontrar evidências apenas no nível de 0,05, independentemente do tamanho dos seus valores de p. Da mesma forma, falar de efeitos "um pouco significativos" ou "aproximando-se da significância" também não faz muito sentido, porque você escolheu esse critério arbitrário de 0,05. Se você interpretar a lógica do teste de significância muito literalmente, algo maior que 0,05 não será significativo.
Concordo que termos como "aproximando-se da significância" são frequentemente usados para melhorar as perspectivas de publicação. No entanto, não creio que os autores possam ser responsabilizados por isso, porque a atual cultura de publicação em algumas ciências ainda depende muito do "Santo Graal" de 0,05.
Algumas dessas questões são discutidas em:
Gigerenzer, G. (2004). Estatísticas irracionais. The Journal of Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Evidência estatística: um paradigma de probabilidade (Vol. 71). Pressione CRC.
fonte
Essa inclinação escorregadia chama de volta à estrutura de Fisher vs Neyman / Pearson para teste de significância de hipótese nula (NHST). Por um lado, quer-se fazer uma avaliação quantitativa de quão improvável é um resultado sob a hipótese nula (por exemplo, tamanhos de efeito). Por outro lado, no final do dia, você deseja uma decisão discreta sobre se seus resultados são ou não provavelmente passados apenas pelo acaso. Acabamos com um tipo de abordagem híbrida que não é muito satisfatória.
Na maioria das disciplinas, o p convencional para significância é definido em 0,05, mas não há realmente base para o porquê disso. Quando analiso um artigo, não tenho absolutamente nenhum problema com um autor que chame 0,06 de significância, ou mesmo 0,07, desde que a metodologia seja sólida, e toda a imagem, incluindo todas as análises, figuras etc., conte uma história consistente e crível. O problema é que os autores tentam criar uma história com dados triviais com pequenos tamanhos de efeito. Por outro lado, eu posso não "acreditar" completamente que um teste é praticamente significativo mesmo quando atinge p <0,05 de significância convencional. Um colega meu disse uma vez: "Suas estatísticas devem simplesmente fazer backup do que já é aparente em seus números".
Dito isso, acho que Vasilev está correto. Dado o sistema de publicação quebrado, é necessário incluir valores de p e, portanto, é necessário usar a palavra 'significativo' para ser levada a sério, mesmo que exija adjetivos como "marginalmente" (o que eu prefiro). Você sempre pode lutar na revisão por pares, mas precisa chegar primeiro.
fonte
A diferença entre dois valores de p em si normalmente não é significativa. Portanto, não importa se o seu valor p é 0,05, 0,049, 0,051 ...
Com relação aos valores de p como uma medida da força de associação: Um valor de p não é diretamente uma medida de força de associação. Um valor-p é a probabilidade de encontrar dados tão extremos ou mais extremos quanto os dados que você observou, dado que o parâmetro tem a hipótese de ser 0 (se alguém estiver interessado na hipótese nula - veja o comentário de Nick Cox). No entanto, essa não costuma ser a quantidade na qual o pesquisador está interessado. Muitos pesquisadores estão bastante interessados em responder perguntas como "qual é a probabilidade do parâmetro ser maior do que algum valor de corte escolhido?" Se é disso que você está interessado, é necessário incorporar informações prévias adicionais ao seu modelo.
fonte
fonte
Costumo pensar que dizer que algo é quase estatisticamente significativo não é correto do ponto de vista técnico. Depois de definir seu nível de tolerância, o teste estatístico de significância é definido. Você precisa voltar à ideia de distribuições de amostragem. Se o seu nível de tolerância é de 0,05 e você obtém um valor-p de 0,053, é por acaso que a amostra utilizada produziu essa estatística. Você poderia muito bem obter outra amostra que talvez não produza os mesmos resultados. Acredito que a probabilidade disso ocorra é baseada no nível de tolerância definido e não na estatística da amostra. Lembre-se de que você está testando amostras em relação a um parâmetro populacional e as amostras têm sua própria distribuição de amostragem. Então, na minha opinião, ou algo é estatisticamente significativo ou não é.
fonte
Veja, por exemplo, a Wikipedia .
fonte