Recentemente, dois colegas de trabalho diferentes usaram um tipo de argumento sobre diferenças entre condições que me parecem incorretas. Ambos os colegas de trabalho usam estatísticas, mas não são estatísticos. Eu sou um novato em estatística.
Nos dois casos, argumentei que, como não havia diferença significativa entre duas condições em um experimento, era incorreto fazer uma afirmação geral sobre esses grupos em relação à manipulação. Observe que "fazer uma afirmação geral" significa algo como escrever: "O grupo A usou X com mais frequência que o grupo B".
Meus colegas responderam: "mesmo que não haja diferença significativa, a tendência ainda está lá" e "mesmo que não haja diferença significativa, ainda há diferença". Para mim, ambos parecem um equívoco, ou seja, eles mudaram o significado de "diferença" de: "uma diferença que provavelmente é resultado de algo diferente do acaso" (ou seja, significância estatística), para "qualquer diferença zero na medição entre os grupos ".
A resposta dos meus colegas de trabalho estava correta? Não aceitei com eles porque me superaram.
Respostas:
Esta é uma grande pergunta; a resposta depende muito do contexto.
Em geral, eu diria que você está certo : fazer uma afirmação geral não qualificada como "o grupo A usou X com mais frequência do que o grupo B" é enganoso. Seria melhor dizer algo como
ou
ou
Por outro lado: seus colegas de trabalho estão certos de que , nesse experimento em particular , o grupo A usou X com mais frequência que o grupo B. No entanto, as pessoas raramente se importam com os participantes de um experimento específico; eles querem saber como seus resultados serão generalizados para uma população maior e, nesse caso, a resposta geral é que você não pode dizer com segurança se um grupo A selecionado aleatoriamente usará X com mais ou menos frequência do que um grupo B.
Se você precisava fazer hoje uma escolha sobre usar o tratamento A ou B para aumentar o uso de X, na ausência de outras informações ou diferenças de custos, etc., então escolher A seria sua melhor aposta. Mas se você quiser se sentir confortável com a possibilidade de fazer a escolha certa, precisará de mais informações.
Observe que você não deve dizer "não há diferença entre o grupo A e o grupo B no uso de X" ou "o grupo A e o grupo B usam X a mesma quantidade". Isso é verdade nem dos participantes do seu experimento (onde A usou X 13% a mais) nem da população em geral; na maioria dos contextos do mundo real, você sabe que realmente deve haver algum efeito (por menor que seja) de A vs. B; você simplesmente não sabe em que direção ele vai.
fonte
Essa é uma pergunta difícil!
Primeiramente, qualquer limiar que você escolher para determinar a significância estatística é arbitrário. O fato de a maioria das pessoas usar um valor de p de5 % não o torna mais correto do que qualquer outro. Portanto, em algum sentido, você deve pensar na significância estatística como um "espectro" e não como um assunto em preto ou branco.p
Vamos supor que temos uma hipótese nulaH0 0 (por exemplo, os grupos UMA e B mostram a mesma média para a variável X ou a média da população para a variável Y está abaixo de 5). Você pode pensar na hipótese nula como a hipótese "sem tendência". Reunimos alguns dados para verificar se podemos refutar H0 0 (a hipótese nula nunca é "provada verdadeira"). Com nossa amostra, fazemos algumas estatísticas e, eventualmente, obtemos um valor- p . Em breve, o valor- p é a probabilidade de que o acaso puro produza resultados igualmente (ou mais) extremos do que aqueles que obtivemos, assumindo, é claro, H0 0 para ser verdade (ou seja, nenhuma tendência).
Se obtivermos um valorp "baixo" , dizemos que o acaso raramente produz resultados como esses; portanto, rejeitamos H0 0 (há evidências estatisticamente significativas de que H0 0 poderia ser falso). Se obtivermos um valor p "alto" , é mais provável que os resultados sejam resultado de sorte do que de tendência real. Não dizemos que H0 0 é verdade, mas sim que estudos adicionais devem ser realizados para rejeitá-lo.
AVISO: Um valorp de 23 % não significa que há uma chance de 23 % de não haver nenhuma tendência; em vez disso, essa chance gera resultados como os 23 % do tempo, o que parece semelhante, mas é completamente diferente. coisa. Por exemplo, se afirmo algo ridículo, como "Posso prever os resultados de rolagem de dados uma hora antes que eles ocorram", fazemos um experimento para verificar a hipótese nula H0 0: = "Não posso fazer isso" e obter 0.5% p− valor, você ainda teria um bom motivo para não acreditar em mim, apesar da significância estatística.
Então, com essas idéias em mente, vamos voltar à sua pergunta principal. Digamos que queremos verificar se o aumento da dose do medicamentoX afeta a probabilidade de pacientes sobreviverem a uma determinada doença. Realizamos um experimento, ajustamos um modelo de regressão logística (levando em consideração muitas outras variáveis) e verificamos a significância no coeficiente associado à variável "dose" (chamando esse coeficiente β , testamos uma hipótese nula H0: β=0 ou talvez β≤0 Em inglês, "a droga não tem efeito" ou "a droga não tem efeito ou tem um efeito negativo".
Espero que essa explicação muito prolixo ajude você a organizar suas idéias. O resumo é que você está absolutamente certo! Não devemos preencher nossos relatórios, seja para pesquisa, negócios ou qualquer outra coisa, com alegações selvagens apoiadas por poucas evidências. Se você realmente acha que existe uma tendência, mas não alcançou significância estatística, repita o experimento com mais dados!
fonte
Efeito significativo significa apenas que você mediu uma anomalia improvável (improvável se a hipótese nula, ausência de efeito, fosse verdadeira). E, como conseqüência, deve-se duvidar com alta probabilidade (embora essa probabilidade não seja igual ao valor-p e também dependa de crenças anteriores).
Dependendo da qualidade do experimento, é possível medir o mesmo tamanho de efeito , mas pode não ser uma anomalia (um resultado improvável se a hipótese nula for verdadeira).
Quando você observa um efeito, mas não é significativo, na verdade ele (o efeito) ainda pode estar lá, mas não é significativo (as medidas não indicam que a hipótese nula deve ser duvidosa / rejeitada com alta probabilidade). Isso significa que você deve melhorar sua experiência, reunir mais dados, para ter mais certeza.
Portanto, em vez do efeito dicotomia versus efeito nulo, você deve ir para as quatro categorias a seguir :
Imagem de https://en.wikipedia.org/wiki/Equivalence_test explicando o procedimento de dois testes t unilaterais (TOST)
Você parece estar na categoria D, o teste é inconclusivo. Seus colegas de trabalho podem estar errados ao dizer que há um efeito. No entanto, é igualmente errado dizer que não há efeito!
fonte
Parece que eles estão discutindo o valor p versus a definição de "Tendência".
Se você plotar os dados em um gráfico de execução, poderá ver uma tendência ... uma série de pontos de plotagem que mostram uma tendência aumentando ou diminuindo ao longo do tempo.
Mas, quando você faz as estatísticas, o valor de p sugere que não é significativo.
Para o valor-p mostrar pouco significado, mas para eles verem uma tendência / execução na série de dados ... isso teria que ser uma tendência muito leve.
Então, se fosse esse o caso, eu retornaria ao valor p. IE: ok, sim, há uma tendência / execução nos dados .. mas é tão leve e insignificante que as estatísticas sugerem que não vale a pena prosseguir Análise de.
Uma tendência insignificante é algo que pode ser atribuído a algum tipo de viés na pesquisa .. talvez algo muito menor .. algo que pode ser apenas uma ocorrência única no experimento que criou uma tendência ligeira.
Se eu fosse o gerente do grupo, diria a eles para parar de desperdiçar tempo e dinheiro explorando tendências insignificantes e procurar outras mais significativas.
fonte
Parece que, nesse caso, eles têm pouca justificativa para sua reivindicação e estão apenas abusando das estatísticas para chegar à conclusão que já tinham. Mas há momentos em que é aceitável não ser tão rigoroso com os pontos de corte de p-val. Este (como usar significância estatística e pontos de corte pval) é um debate que tem ocorrido desde que Fisher, Neyman e Pearson lançaram as bases dos testes estatísticos.
Digamos que você está construindo um modelo e está decidindo quais variáveis incluir. Você coleta um pouco de dados para fazer uma investigação preliminar sobre possíveis variáveis. Agora, existe essa variável na qual a equipe de negócios realmente está interessada, mas sua investigação preliminar mostra que a variável não é estatisticamente significativa. No entanto, a "direção" da variável comporta o que a equipe de negócios esperava e, embora não atingisse o limite de significância, estava próxima. Talvez houvesse suspeita de correlação positiva com o resultado e você obteve um coeficiente beta positivo, mas o pval estava um pouco acima do ponto de corte 0,05.
Nesse caso, você pode ir em frente e incluí-lo. É uma espécie de estatística bayesiana informal - havia uma forte crença anterior de que ela é uma variável útil e a investigação inicial mostrou alguma evidência nessa direção (mas não uma evidência estatisticamente significativa!), Então você oferece o benefício da dúvida e mantenha-o no modelo. Talvez com mais dados seja mais evidente que relação ela tem com o resultado de interesse.
Outro exemplo pode ser o local em que você está construindo um novo modelo e as variáveis usadas no modelo anterior - você pode continuar incluindo uma variável marginal (que está no limite de significância) para manter alguma continuidade do modelo modelar.
Basicamente, dependendo do que você está fazendo, há razões para ser cada vez menos rigoroso com esse tipo de coisa.
Por outro lado, também é importante ter em mente que o significado estatístico não precisa implicar em significado prático! Lembre-se de que no centro de tudo isso está o tamanho da amostra. Colete dados suficientes e o erro padrão da estimativa diminuirá para 0. Isso fará qualquer tipo de diferença, por menor que seja, 'estatisticamente significante', mesmo que essa diferença possa não significar nada no mundo real. Por exemplo, suponha que a probabilidade de uma determinada moeda pousar nas cabeças fosse 0,500000000000001. Isso significa que, teoricamente, você pode projetar um experimento que conclua que a moeda não é justa, mas para todos os efeitos, a moeda pode ser tratada como uma moeda justa.
fonte