DP maior que a média, escala não negativa

9

Recebi um artigo relatando um estudo muito semelhante ao que meu laboratório deseja executar. Mas notei que, para a variável de interesse Duração, os DPs são maiores que a média ... já que essa duração é medida em minutos, nunca pode ser negativa e isso me parece muito estranho. Isso aconteceu em 2 estudos relatados, abaixo é um.

Além disso, este é um design misto. Controle v Tratamento (entre grupos) e Tempo1, Tempo2, Tempo3 (repetir medidas). Aqui estão os meios (SDs), N> 200

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

... eles executaram uma ANOVA e relataram um p <0,001.

Me pediram para usar isso como base para uma análise de poder para determinar o tamanho da amostra para o nosso estudo. Tenho certeza de que isso indica que os dados não são normais ou apresentam valores discrepantes e não me sinto à vontade para determinar o tamanho da amostra com base nisso. Estou apenas fora da base?

Curioso
fonte
Tem certeza de que esses são intervalos de confiança de SD e não 95%, que podem ser mais como 3 * SD. Parece que esses SD têm aproximadamente o mesmo tamanho dos meios. É realmente difícil dizer qual é o tamanho da amostra, pois não sabemos quais efeitos foram incluídos nesses erros ou mesmo qual é a estatística. Se estivesse apenas contando estatísticas, ou seja, a distribuição de Poisson, incluída a média sobre o DP deve ser igual a 1 / Sqrt (N). No entanto, isso implicaria N = 1 (ou alguns no máximo). Você pode nos dar mais informações sobre o que são essas estatísticas?
Dave31415
Além disso, a distribuição normal tem uma média e um DP que são completamente independentes um do outro. Acho que você quis dizer a distribuição de Poisson.
Dave31415
2
Com durações não-negativas, eu normalmente esperaria uma distribuição distorcida. SDs comparáveis ​​à média são perfeitamente possíveis e em nenhum sentido surpreendentes. Qual distribuição é melhor assumida para outros cálculos não pode ser aconselhada sem mais informações, mas eu não escolheria Poisson como meu primeiro palpite, mas sim gama ou lognormal.
Nick Cox
Como observa o @NickCox, com durações eu ficaria surpreso se o SD não fosse maior que a média (se não houvesse censura). Você também pode considerar a distribuição Weibull. A análise de energia provavelmente terá que ser baseada em simulação. Em uma nota diferente, eu acho que uma ANOVA é inválida com dados como esse.
gung - Restabelece Monica
11
Para um conjunto de dados de números não negativos, o coeficiente de variação - a razão do desvio padrão para a média - pode assumir valores tão grandes quanto com o valor máximo ocorrendo no caso extremo quando todos os números forem exceto um (consulte esta pergunta para detalhes). Portanto, o desvio padrão que excede a média não deve ser considerado como um caso excepcional que exige muita explicação. nO(n)0 0
Dilip Sarwate

Respostas:

5

É facilmente possível que o desvio padrão exceda a média com dados não negativos ou estritamente positivos

Eu descreveria o caso dos seus dados como o desvio padrão próximo da média (nem todos os valores são maiores e os maiores são geralmente próximos). Para dados não negativos, isso indica claramente que os dados estão inclinados (por exemplo, a distribuição gama com coeficiente de variação = 1 seria a distribuição exponencial; portanto, se os dados fossem gama, eles pareceriam algo exponencial)

No entanto, com esse tipo de tamanho de amostra, a ANOVA pode não ser particularmente afetada por isso; a incerteza na estimativa da variância combinada será muito pequena; portanto, podemos considerar que entre o CLT (para os meios) e o teorema de Slutsky (para a estimativa de variância no denominador), uma ANOVA provavelmente funcionará razoavelmente bem, já que você ' Terá um qui-quadrado assintótico, para o qual a ANOVA-F, com seu grande denominador-graus de liberdade, será uma boa aproximação. (ou seja, deve ter uma robustez razoável do nível e, como os meios não estão muito longe da constante, o poder não deve ser muito afetado pela heterocedasticidade)

Dito isto, se o seu estudo tiver um tamanho de amostra menor, é melhor usar um teste diferente (talvez um teste de permutação ou um mais adequado para dados distorcidos, talvez um baseado em um GLM). A alteração no teste pode exigir um tamanho de amostra um pouco maior do que o obtido para uma ANOVA direta.

Com os dados originais, você pode fazer uma análise de potência sob um modelo / análise adequado. Mesmo na ausência dos dados originais, é possível fazer suposições mais plausíveis sobre a distribuição (talvez uma variedade delas) e investigar toda a curva de potência (ou, mais simplesmente, apenas a taxa de erro do tipo I e a potência em qualquer tamanho de efeito é de interesse). Uma variedade de suposições razoáveis ​​poderia ser usada, o que dá uma idéia de qual poder pode ser alcançado em circunstâncias plausíveis e quanto maior o tamanho da amostra pode precisar.

Glen_b -Reinstate Monica
fonte
4

Você está certo ao concluir que os dados não são normais. Se os dados fossem normais, esperaríamos que cerca de 16% das observações fossem inferiores à média menos o desvio padrão. Com um SD maior que a média, esse número é negativo e você declara que não pode haver números negativos; portanto, o que está vendo não é consistente com os dados normalmente distribuídos. Os valores SD são possíveis, mas apenas se a distribuição estiver muito inclinada (o que é comum em durações).

Concordo que escolher um tamanho de amostra com base na suposição de que os dados serão normais não é uma boa ideia, mas se você puder descobrir mais sobre o processo e encontrar uma distribuição inclinada correta (uma distribuição gama como uma possibilidade) que seja uma suposição razoável, então você pode usar isso para ajudar a determinar o tamanho da amostra.

Greg Snow
fonte