Posso confiar em um resultado significativo de um teste t se o tamanho da amostra for pequeno?

17

Se meu resultado do teste t unilateral for significativo, mas o tamanho da amostra for pequeno (por exemplo, abaixo de 20 ou mais), ainda posso confiar nesse resultado? Caso contrário, como devo lidar e / ou interpretar esse resultado?

Eric
fonte
8
Apenas um comentário, não quero acrescentar aos maravilhosos comentários abaixo; você não confia no resultado de um teste t, confia no próprio procedimento. Um resultado individual é correto ou incorreto, mas sem uma investigação mais aprofundada, você nunca saberá qual. Um teste t na metodologia de Fisher ou na metodologia de Pearson e Neyman é confiável se as premissas forem atendidas. Se você definir , isso o enganará, com repetições infinitas, não mais que 5% do tempo, possivelmente um pouco menos. A pergunta que você deve fazer é "as suposições foram atendidas?" α<.05
Dave Harris

Respostas:

15

Em teoria, se todas as suposições do teste t forem verdadeiras, não haverá problema com um pequeno tamanho de amostra.

Na prática, existem algumas suposições não muito verdadeiras com as quais podemos nos safar para amostras grandes, mas elas podem causar problemas para amostras pequenas. Você sabe se a distribuição subjacente é normalmente distribuída? Todas as amostras são independentes e identicamente distribuídas?

Se você duvida da validade do teste, uma alternativa que você pode usar é a inicialização. O bootstrapping envolve a reamostragem de sua amostra para ver com que frequência a hipótese nula é verdadeira ou falsa. Talvez sua hipótese nula seja e seu valor-p seja 0,05, mas o bootstrapping mostra que a média da amostra é inferior a zero 10% do tempo. Isso indicaria que foi um acaso que causou um valor de p de 0,05 e você deve estar menos confiante de que a hipótese nula é falsa.μ<0

Hugh
fonte
1
Por exemplo, se você sabe que a distribuição subjacente é aproximadamente uma distribuição normal e todas as 10 amostras são menores que um valor específico, então as chances da população significam que mais do que esse valor é no máximo uma em 2 ^ 10, ou um em mil. É claramente uma chance de 1 em 2 ^ 10 que todas as dez amostras de uma população normalmente distribuída estejam do mesmo lado da média. O problema será que você obterá resultados confiáveis, mas eles serão muito fracos - como "a altura média de um adulto adulto está quase definitivamente entre 5 e 7 pés".
21417 David Schwartz
Muito obrigado pela explicação e pela abordagem alternativa. Eu realmente aprecio eles! Muito Obrigado!
Eric
Não recebo sua sugestão de inicialização. Se você reamostrar da amostra (que tem p <0,05), seria de esperar que a maioria das reamostragens de autoinicialização tenha um resultado significativo, talvez em torno de 95%, não 5 ou 10%. Você pode por favor elaborar? Cc para @Eric.
Ameba diz Restabelecer Monica
3
Como uma observação mais geral, o bootstrap funciona bem em amostras grandes, mas com amostras pequenas a cobertura pode diferir bastante do nominal. Além disso, com tamanho de amostra muito baixo, a energia é baixa. Portanto, não é necessariamente verdade que um "teste de autoinicialização" seja sempre superior ao teste t.
Ameba diz Restabelecer Monica
3
@amoeba Eu realmente gosto do seu estilo de correção. Você não apenas me disse o que estava certo / errado, mas apontou uma conseqüência estranha das minhas idéias e me fez repensar minha resposta e entender a fonte do meu erro. Então, obrigado por isso! No passado Whuber fez isso para mim também
Hugh
21

Você raramente deve confiar em qualquer resultado significativo. Você não disse por que estava usando um teste unicaudal em vez de bicaudal; portanto, espero que você tenha uma boa razão para fazer isso além de lutar para conseguir um resultado estatisticamente significativo!

Deixando isso de lado, considere o seguinte na p. 261 de Sauro, J. & Lewis, JR (2016). Quantificando a Experiência do Usuário: Estatísticas Práticas para Pesquisa do Usuário, 2ª Ed. Cambridge, MA: Morgan-Kaufmann.


Como Ronald Fisher recomendou o uso de valores-p

Quando Karl Pearson era o grande ancião da estatística e Ronald Fisher era um relativamente novo, Pearson, aparentemente ameaçado pelas idéias e capacidade matemática de Fisher, usou sua influência para impedir Fisher de publicar nos principais periódicos estatísticos da época, Biometrika e o Journal. da Royal Statistical Society. Consequentemente, Fisher publicou suas idéias em vários outros locais, como jornais agrícolas e meteorológicos, incluindo vários artigos para os Anais da Sociedade de Pesquisa Psíquica. Foi em um dos artigos deste último periódico que ele mencionou a convenção de definir o que chamamos agora de erro aceitável do Tipo I (alfa) para 0,05 e, criticamente, também mencionou a importância da reprodutibilidade ao encontrar um resultado significativo inesperado:

Considera-se que uma observação é significativa, se raramente tivesse sido produzida, na ausência de uma causa real do tipo que estamos buscando. É uma prática comum julgar um resultado significativo, se é de tal magnitude que teria sido produzido por acaso não com mais frequência do que uma vez em vinte tentativas. Esse é um nível de significância arbitrário, mas conveniente, para o investigador prático, mas não significa que ele se deixe enganar uma vez a cada vinte experimentos. O teste de significância apenas diz a ele o que ignorar, a saber, todos os experimentos em que resultados significativos não são obtidos. Ele deveria alegar apenas que um fenômeno é experimentalmente demonstrável quando ele sabe como projetar um experimento para que raramente falhe em fornecer um resultado significativo. Consequentemente, resultados significativos isolados que ele não sabe reproduzir são deixados em suspense até uma investigação mais aprofundada. (Fisher, 1929, p. 191)

Referência

Fisher, RA (1929). O método estatístico na pesquisa psíquica. Proceedings of the Society for Psychical Research, 39, 189-192.

Jim Lewis
fonte
2
Fisher também publicou vários artigos importantes sobre a estimativa da máxima verossimilhança em The Annals of Eugenics. Seu método costumava ser melhor do que o método dos momentos que Karl Pearson usava. Fisher chamou seu método de inferência fiducial. Mais tarde, foi formalizado por Jerzy Neyman e Egon Pearson (filho de Karl Pearson).
Michael R. Chernick
3
Neyman e Pearson não formalizaram a inferência fiducial de Fisher. Eles desenvolveram um método alternativo.
Michael Lew
5
Nos dias de Fisher, "significante" significava que significa algo, não que seja importante.
David Lane
1
Muito obrigado pelas informações altamente detalhadas! Isso realmente me ajuda muito!
Eric
16

Imagine-se em uma situação em que você está fazendo muitos testes semelhantes, em um conjunto de circunstâncias em que uma fração dos valores nulos é verdadeira.

t

(1β)β

nMnM

Qual a proporção de suas rejeições será "correta"?

ntα+n(1t)(1β)
n(1t)(1β)

(1t)(1β)tα+(1t)(1β)

Overall proportion of times a rejection was an error: tαtα+(1t)(1β)

For the proportion of correct rejections to be more than a small number you need to avoid the situation where (1t)(1β)tα

Since in our setup a substantial fraction of nulls are true, if 1β is not substantially larger than α (i.e. if you don't have fairly high power), a lot of our rejections are mistakes!

So when your sample size is small (and hence power is low), if a reasonable fraction of our nulls were true, we'd often be making an error when we reject.

The situation isn't much better if almost all our nulls are strictly false -- while most of our rejections will be correct (trivially, since tiny effects are still strictly false), if the power isn't high, a substantial fraction of those rejections will be "in the wrong direction" - we'll conclude the null is false quite often because by chance the sample turned out to be on the wrong side (this may be one argument to use one sided tests - when one sided tests make sense - to at least avoid rejections that make no sense if large sample sizes are hard to get).

We can see that small sample sizes can certainly be a problem.

[This proportion of incorrect rejections is called the false discovery rate]


If you have a notion of likely effect size you're in a better position to judge what an adequate sample size might be. With large anticipated effects, a rejection with a small sample size would not necessarily be a major concern.

Glen_b -Reinstate Monica
fonte
Thanks a lot! That's a point that I can miss very easily. Many thanks for pin pointing that!
Eric
1
Great work. This could be the accepted answer.
Richard Hardy
@Eric the original answer got a bit muddled up in the middle; I have corrected it.
Glen_b -Reinstate Monica
9

Some of Gosset's original work (aka Student), for which he developed the t test, involved yeast samples of n=4 and 5. The test was specifically designed for very small samples. Otherwise, the normal approximation would be fine. That said, Gosset was doing very careful, controlled experiments on data that he understood very well. There's a limit to the number of things a brewery has to test, and Gosset spent his working life at Guinness. He knew his data.

I'm a bit suspicious of your emphasis on one-sided testing. The logic of testing is the same whatever the hypothesis, but I've seen people go with a significant one-sided test when the two-sided was non-significant.

This is what a (upper) one-sided test implies. You are testing that a mean is 0. You do the math and are prepared to reject when T > 2.5. You run your experiment and observe that T=-50,000. You say, "phhhhht", and life goes on. Unless it is physically impossible for the test statistic to sink way below the hypothesized parameter value, and unless you would never take any decision if the test statistic goes in the opposite direction than you expect, you should be using a two-sided test.

Placidia
fonte
6

The main thing you need to worry about is the power of your test. In particular, you might want to do a post-hoc power analysis to determine how likely you are, given your sample size, to identify a true significant effect of a reasonable size. If typical effects are very large, an n of 8 could be totally adequate (as with many experiments in molecular biology). If the effects you are interested in are typically subtle, however (as in many social psychology experiments), an n of thousands might still be underpowered.

This is important because underpowered tests can give very misleading results. For example, if your test is underpowered, even if you find a significant result, you have a relatively high probability of making what Andrew Gelman calls a "Type S" error, i.e., there is a real effect but in the opposite direction, or a "Type M" error, i.e., there is a real effect but the true magnitude is much weaker than what is estimated from the data.

Gelman and Carlin wrote a useful paper about doing post-hoc power analysis that I think applies in your case. Importantly, they recommend using independent data (i.e., not the data you tested, but reviews, modeling, the results of similar experiments, etc.) to estimate a plausible true effect size. By performing power analysis using that plausible estimated true effect size and comparing to your results, you can determine the probability of making a Type S error and the typical "exaggeration ratio," and thus get a better sense for how strong your evidence really is.

Patrick B.
fonte
4

One could say that the whole point of statistical significance is to answer the question "can I trust this result, given the sample size?". In other words, the whole point is to control for the fact that with small sample sizes, you can get flukes, when no real effect exists. The statistical significance, that is to say the p-value, is precisely the answer to the question, "if no real effect existed, how likely would I be to get a fluke as big as this?". If it's very unlikely, that indicates that it's not a fluke.

So the answer is "yes", if the p-value is low, and if you have followed the correct statistical procedures and are satisfying the relevant assumptions, then yes, it is good evidence, and has the same weight as if you'd gotten the same p-value with a very large sample size.

Denziloe
fonte