Eu tenho trabalhado com alguns dados de tempo de ciclo do processo e dimensionamento usando o z-score padrão para comparar entre partes do tempo total do ciclo.
Devo usar alguma outra transformação, já que os dados estão fortemente inclinados à direita / fora do normal? ('outliers' nunca podem levar tempo negativo e muitas vezes demoram muito mais que 'mediano')
Usar o z-score ainda parece "funcionar" ...
###############
# R code
###############
mydata <- rweibull(1000,1,1.5)
hist(mydata)
hist(scale(mydata))
Respostas:
Se X for altamente inclinado, a estatística Z não será normalmente distribuída (ou t se o desvio padrão precisar ser estimado. Portanto, os percentis de Z não serão o padrão normal. Portanto, nesse sentido, não funcionará.
fonte
O código R funcionará, mas o escore z será tão significativo quanto a frase "As uvas estão ligando para a caneta-tinteiro levemente". É uma frase válida, mas não transmite nada de significativo.
A julgar pelo seu código R, parece que você acha que seus dados são Weibull distribuídos. Nesse caso, eu usaria a estatística Weibull e não escalaria nada, a menos que você precise. Embora z-scores sejam ensinados em todas as aulas de estatística de introdução, isso não significa que você deva usá-los o tempo todo, principalmente se você não tiver dados simétricos.
fonte
Se a população não for normalmente distribuída. Nesse caso, a distribuição da barra (X) {média da amostra} se aproxima de uma distribuição normal conforme o teorema do limite central; para tamanho de amostra grande. Embora teoricamente digamos que estamos usando Student-t, mas para valores mais altos de n (tamanho da amostra ou grau de liberdade), a distribuição t e a distribuição Z são quase iguais.
fonte
SEUS DADOS NÃO SÃO NORMAIS PARA UM TESTE Z. (TOWNEND, 2002) No entanto, as variedades devem ser aproximadamente iguais. PARA VERIFICAR QUE REALIZAM UM F-TEST EM SEUS DATASETS, E SE SUAS VARIEDADES SÃO APROXIMADAMENTE IGUAIS, O RESULTADO DO TESTE Z É ÚTIL. Caso contrário, transfira os dados.
fonte