Recebi um artigo relatando um estudo muito semelhante ao que meu laboratório deseja executar. Mas notei que, para a variável de interesse Duração, os DPs são maiores que a média ... já que essa duração é medida em minutos, nunca pode ser negativa e isso me parece muito estranho. Isso aconteceu em 2 estudos relatados, abaixo é um.
Além disso, este é um design misto. Controle v Tratamento (entre grupos) e Tempo1, Tempo2, Tempo3 (repetir medidas). Aqui estão os meios (SDs), N> 200
Time1 Time2 Time3
Control 15.1 (14.6) 14.4 (14.8) 13.3 (15.7)
Treatment 14.8 (13.2) 10.0 (12.2) 8.2 (9.9)
... eles executaram uma ANOVA e relataram um p <0,001.
Me pediram para usar isso como base para uma análise de poder para determinar o tamanho da amostra para o nosso estudo. Tenho certeza de que isso indica que os dados não são normais ou apresentam valores discrepantes e não me sinto à vontade para determinar o tamanho da amostra com base nisso. Estou apenas fora da base?
fonte
Respostas:
É facilmente possível que o desvio padrão exceda a média com dados não negativos ou estritamente positivos
Eu descreveria o caso dos seus dados como o desvio padrão próximo da média (nem todos os valores são maiores e os maiores são geralmente próximos). Para dados não negativos, isso indica claramente que os dados estão inclinados (por exemplo, a distribuição gama com coeficiente de variação = 1 seria a distribuição exponencial; portanto, se os dados fossem gama, eles pareceriam algo exponencial)
No entanto, com esse tipo de tamanho de amostra, a ANOVA pode não ser particularmente afetada por isso; a incerteza na estimativa da variância combinada será muito pequena; portanto, podemos considerar que entre o CLT (para os meios) e o teorema de Slutsky (para a estimativa de variância no denominador), uma ANOVA provavelmente funcionará razoavelmente bem, já que você ' Terá um qui-quadrado assintótico, para o qual a ANOVA-F, com seu grande denominador-graus de liberdade, será uma boa aproximação. (ou seja, deve ter uma robustez razoável do nível e, como os meios não estão muito longe da constante, o poder não deve ser muito afetado pela heterocedasticidade)
Dito isto, se o seu estudo tiver um tamanho de amostra menor, é melhor usar um teste diferente (talvez um teste de permutação ou um mais adequado para dados distorcidos, talvez um baseado em um GLM). A alteração no teste pode exigir um tamanho de amostra um pouco maior do que o obtido para uma ANOVA direta.
Com os dados originais, você pode fazer uma análise de potência sob um modelo / análise adequado. Mesmo na ausência dos dados originais, é possível fazer suposições mais plausíveis sobre a distribuição (talvez uma variedade delas) e investigar toda a curva de potência (ou, mais simplesmente, apenas a taxa de erro do tipo I e a potência em qualquer tamanho de efeito é de interesse). Uma variedade de suposições razoáveis poderia ser usada, o que dá uma idéia de qual poder pode ser alcançado em circunstâncias plausíveis e quanto maior o tamanho da amostra pode precisar.
fonte
Você está certo ao concluir que os dados não são normais. Se os dados fossem normais, esperaríamos que cerca de 16% das observações fossem inferiores à média menos o desvio padrão. Com um SD maior que a média, esse número é negativo e você declara que não pode haver números negativos; portanto, o que está vendo não é consistente com os dados normalmente distribuídos. Os valores SD são possíveis, mas apenas se a distribuição estiver muito inclinada (o que é comum em durações).
Concordo que escolher um tamanho de amostra com base na suposição de que os dados serão normais não é uma boa ideia, mas se você puder descobrir mais sobre o processo e encontrar uma distribuição inclinada correta (uma distribuição gama como uma possibilidade) que seja uma suposição razoável, então você pode usar isso para ajudar a determinar o tamanho da amostra.
fonte