Aqui está um gráfico de QQ para minha amostra (observe o eixo Y logarítmico); :
Conforme apontado pelo whuber, isso indica que a distribuição subjacente é inclinada para a esquerda (a cauda direita é mais curta).
Usando shapiro.test
(nos dados transformados em log) em R, recebo uma estatística de teste e um valor p de 5,172 \ cdot10 ^ {- 13} , o que significa que rejeitamos formalmente a hipótese nula H_0: \ text { a amostra é distribuída normalmente} no nível de confiança de 95%.5,172 ⋅ 10 - 13
Minha pergunta é: isso é bom o suficiente na prática para análises posteriores assumindo (log-) normalidade? Em particular, eu gostaria de calcular intervalos de confiança para as médias de amostras semelhantes usando o método aproximado de Cox e Land (descrito no artigo: Zou, GY, cindy Yan Huo e Taleban, J. (2009). meios lognormal e suas diferenças com aplicações ambientais (Environmetrics 20, 172–180):
ci <- function (x) {
y <- log(x)
n <- length(y)
s2 <- var(y)
m <- mean(y) + s2 / 2
z <- qnorm(1 - 0.05 / 2) # 95%
#z <- qnorm(1 - 0.10 / 2) # 90%
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
return(c(exp(m - d), exp(m + d)))
}
Percebi que os intervalos de confiança tendem a se centrar em torno de um ponto ligeiramente acima da média real da amostra. Por exemplo:
> mean(x)
[1] 82.3076
> y <- log(x)
> exp(mean(y) + var(y) / 2)
[1] 91.22831
Eu acho que esses dois valores devem ser os mesmos em .
fonte
Respostas:
Esses dados têm uma cauda curta em comparação com uma distribuição lognormal, não muito diferente de uma distribuição gama:
No entanto, como os dados são fortemente inclinados à direita, podemos esperar que os maiores valores desempenhem um papel importante na estimativa da média e seu intervalo de confiança. Portanto , devemos antecipar que um estimador lognormal (LN) tenderá a superestimar a média e os dois limites de confiança .
Vamos verificar e, para comparação, usar os estimadores usuais: ou seja, a média da amostra e seu intervalo de confiança da teoria normal. Observe que os estimadores usuais dependem apenas da normalidade aproximada da média da amostra , não dos dados, e - com um conjunto de dados tão grande - pode funcionar bem. Para fazer isso, precisamos de uma ligeira modificação da
ci
função:Aqui está uma função paralela para as estimativas da teoria normal:
Aplicado a esse conjunto de dados simulado, as saídas são
As estimativas da teoria normal produzidas1.9
ci.u
parecem um pouco mais próximas da média real de , mas é difícil distinguir de um conjunto de dados qual procedimento tende a funcionar melhor. Para descobrir, vamos simular muitos conjuntos de dados:Estamos interessados em comparar os resultados com a média real de . Um painel de histogramas é revelador a esse respeito:1.9
Agora está claro que os procedimentos lognormal tendem a superestimar a média e os limites de confiança, enquanto os procedimentos usuais fazem um bom trabalho. Podemos estimar as coberturas dos procedimentos de intervalo de confiança:
Este cálculo diz:
O limite inferior do LN não cobrirá a média verdadeira em cerca de 22,3% do tempo (em vez dos 2,5% pretendidos).
O limite inferior usual falhará em cobrir a média real cerca de 2,3% das vezes, próximo aos 2,5% pretendidos.
O limite superior do LN sempre excederá a média verdadeira (em vez de ficar abaixo dele 2,5% do tempo, conforme o planejado). Isso o torna um intervalo de confiança de 100% - (22,3% + 0%) = 77,7% em vez de um intervalo de confiança de 95%.
O limite superior usual falhará em cobrir a média verdadeira cerca de 100 - 96,5 = 3,5% do tempo. Isso é um pouco maior que o valor pretendido de 2,5%. Os limites usuais, portanto, compreendem um intervalo de confiança de 100% - (2,3% + 3,5%) = 94,2% nos dois lados, em vez de um intervalo de confiança de 95%.
A redução da cobertura nominal de 95% para 77,7% para o intervalo lognormal é terrível. A redução para 94,2% para o intervalo usual não é ruim e pode ser atribuída ao efeito da assimetria (dos dados brutos, não de seus logaritmos).
Temos que concluir que análises adicionais da média não devem assumir normalidade do logaritmo.
Seja cuidadoso! Alguns procedimentos (como limites de previsão) serão mais sensíveis à assimetria do que esses limites de confiança para a média, portanto, sua distribuição distorcida pode precisar ser considerada. No entanto, parece improvável que os procedimentos lognormal tenham um bom desempenho com esses dados para praticamente qualquer análise pretendida.
fonte
abline()
vez deqqline()
(que produz uma linha diferente) no primeiro exemplo?trial()
função não usa seus argumentos.trial
:trial <- function(y) { x <- sample(y, length(y), TRUE); cbind(ci(x), ci.u(x)) }
. Em seguida, emita apenas um comandosim <- sapply(1:5000, function(i) trial(x))
. Você pode explorar os histogramas das seis linhassim
seguintes.