Devo incomodar que a potência do teste t seja relativamente pequena quando H0 já for rejeitado?

8

Eu tenho duas amostras bem pequenas ( para cada) e recebo uma potência de teste t de duas amostras para elas 0,49, que é relativamente pequena (calculada por R ). No entanto, o teste t Welch Two Sample fornece um valor p de aqui e, portanto, a hipótese nula pode ser rejeitada.0,032n=7power.t.test()0.032

Agora devo me preocupar que o poder é pequeno?

Meu entendimento é que poder = onde é a probabilidade de erro do tipo II. Aqui, isso significa que meu teste falharia em rejeitar H0 em cerca de 50% dos casos em que deveria ser rejeitado; portanto, eu deveria estar preocupado, especialmente quando minhas amostras particulares não puderam rejeitar H0. Mas, no caso de minhas amostras particulares, parece que eu tenho sorte e meu teste t, com alguma falta de poder, conseguiu rejeitar, então não preciso me preocupar com beta e posso aproveitar a possibilidade de mostrar uma diferença significativa na amostra significa.β1ββ

Minha interpretação está correta? Ou sinto falta de algo importante?

jrx1301
fonte
2
Poder é algo que você deve calcular antes de projetar um experimento, para escolher a escala do experimento necessária para detectar uma diferença de uma certa magnitude. Não é muito bom calculá-lo depois.
EdM
Você rejeita por um de dois motivos; seu nulo é falso ou você cometeu um erro do tipo I. Se o nulo tiver alguma chance de ser verdade, quanto menor o seu poder, maior a chance de você cometer um erro do tipo I. No entanto, se você estiver calculando a potência com base no tamanho do efeito observado , tenha cuidado, você deve ter muito cuidado ao trabalhar com isso; não se comporta como você poderia esperar.
Glen_b -Reinstate Monica

Respostas:

5

Em um sentido restrito, você está correto. O poder é a chance de rejeitar corretamente uma hipótese nula falsa, então você teve uma pequena chance, mas conseguiu fazê-lo de qualquer maneira.

No entanto, de uma perspectiva bayesiana de atualização de crenças, "reduzir o poder implica reduzir a mudança de crença que se justifica pela observação de um resultado estatisticamente significativo (McClelland et al. 2015)". Pense da seguinte maneira: se eu lhe dissesse que entrevistei 30.000 pessoas do público em geral e descobri que, ao contrário dos números de vendas, as pessoas tendem a gostar mais da Pepsi do que da Coca-Cola, isso seria muito atraente. Encontrei um resultado depois de estudar 1% da população (ou seja, o público em geral dos EUA). É provável que generalize para a população maior. Se eu pesquisasse 7 pessoas e encontrasse a mesma coisa, mesmo que fosse estatisticamente significativa, não convenceria ninguém. Você pode argumentar por várias razões (não é possível obter uma amostra representativa, as suposições de ANOVA / regressão podem não ser atendidas etc.), mas o que ' O importante é que o alto poder significa altamente persuasivo (e você deve ser tão crítico ou mais dos seus resultados quanto aqueles que está tentando convencer). Para a matemática bayesiana, bem como explicações adicionais, você pode conferir qualquer um dos seguintes.

Abelson, R. P. (2012). Statistics as principled argument. Psychology Press.

Brinberg, D., Lynch Jr, J. G., & Sawyer, A. G. (1992). Hypothesized and confounded explanations in theory tests: A Bayesian analysis. Journal of Consumer Research, 139-154.

McClelland, G., Lynch, J. G., Irwin, J. R., Spiller, S. A., & Fitzsimons, G. J. (2015). Median Splits, Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power. Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power (March 10, 2015).

Além disso, Ioannidis (2005) fornece alguns argumentos convincentes para resultados de baixa potência, refletindo erros do tipo I, mesmo na ausência de hackers p e outros vieses que geralmente resultam de baixa potência (e o documento é de acesso aberto caso você não trabalhe para uma universidade ou algo semelhante!).

le_andrew
fonte
Muito obrigado pela sua resposta! Definitivamente vou verificar McClelland e Ioannidis (sei que este é um artigo bastante popular). Seu exemplo com a pesquisa da Pepsi-Coca-Cola definitivamente faz sentido, então estou apenas tentando traçar um paralelo com a minha situação: minhas amostras estão relacionadas ao número de recaídas de pacientes com esquizofrenia em uma determinada população observada ao longo de 7 anos em dois meses comparados ( por exemplo, janeiro x julho). Portanto, não há chance de melhorar o protocolo experimental, como abordar mais pessoas. Eu só estava me perguntando se eu já posso dizer algo dos dados que eu já tenho.
Jrx1301
1
Você definitivamente pode. O problema está na interpretação, não na estatística. Algumas pessoas pegam o seu resultado e concluem: "Eu resolvi a esquizofrenia!" ou menos dramaticamente "Eu tenho um resultado significativo, portanto minha teoria é verdadeira e se aplica a todos!" Você provavelmente tem evidências que apóiam uma teoria, mas quão generalizável ela pode estar em questão. Considere coisas como a população real da qual você amostrou, ou seja, você realmente não amostrou da população de "pacientes com esquizofrenia", mas de uma subpopulação menor. A generalização para o pop'n maior requer argumentos extra-estatísticos.
le_andrew
Se você pesquisou n = 30.000 pessoas, mas obteve p = 0,032 (como no OP) para a diferença Pepsi / Coca-Cola, não vejo por que isso é mais convincente do que obter o mesmo valor p com apenas algumas pessoas. Qualquer tamanho de efeito significativo com n = 30.000 deve produzir um pequeno valor de p; portanto, p = 0,032 sugere um tamanho de efeito microscópico no qual o IMHO não estaria particularmente disposto a confiar.
Ameba
H0H0H0
2

N

NN>50%<50%

p.0550%

Então, "deveria [incomodar [você] que o poder é pequeno?" Sim e não. Se você fizesse uma análise de poder post-hoc tradicional (inválida), necessariamente obteria valores como esse - o exercício era completamente pouco informativo. Por outro lado, se levarmos a análise de potência a sério, um efeito significativo com uma configuração de baixa potência basicamente significa que o efeito observado precisa ser enviesado para ser maior do que realmente é, portanto, você deve confiar menos nos resultados.

- Reinstate Monica
fonte
Ótimo post! Caso você não saiba. Há um post de acompanhamento de uma de suas respostas anteriores aqui stats.stackexchange.com/questions/309745/…
Um pouco curioso demais
-1

ppαpαP(pα|H0)αβP(p>α|H1)β1β

H0H1

P(H1|pα)P(H0|pα)=P(pα|H1)P(pα|H0)P(H1)P(H0)1βαP(H1)P(H0)
H1H11β1β

Para mais ilustrações, consulte os intervalos de confiança (IC). Pode-se argumentar que um tamanho maior da amostra tornará o IC mais estreito e, portanto, se o teste for significativo para uma amostra menor, também será significativo para a amostra maior. No entanto, também a localização do IC pode mudar quando incluirmos mais dados em nossa amostra, potencialmente tornando o resultado não significativo. Também é concebível que a amostra maior tenha um erro padrão muito maior e, portanto, o IC se torne mais amplo de fato. Pode-se dizer que um tamanho de amostra maior dá aos fatos mais oportunidades de provar a si mesmos.

p

[1] Colquhoun, "Uma investigação da taxa de falsas descobertas e a interpretação incorreta dos valores-p", Royal Society Open Science, 2014

[2] Colquhoun, "A reprodutibilidade da pesquisa e a má interpretação dos valores P", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337

p<.005

p

Lasse Kliemann
fonte