Para fazer esse gráfico, gerei amostras aleatórias de tamanho diferente de uma distribuição normal com média = 0 e sd = 1. Os intervalos de confiança foram então calculados usando pontos de corte alfa variando de 0,001 a 0,999 (linha vermelha) com a função t.test (), a probabilidade do perfil foi calculada usando o código abaixo do que encontrei nas notas de aula colocadas on-line (eu posso ' t encontre o link no momento Edit: Found ), isso é mostrado pelas linhas azuis. As linhas verdes mostram a densidade normalizada usando a função R density () e os dados são mostrados pelos gráficos de caixa na parte inferior de cada gráfico. À direita, há um gráfico de lagarta dos intervalos de confiança de 95% (vermelho) e 1/20 dos intervalos de probabilidade máxima (azul).
Código R usado para a probabilidade do perfil:
#mn=mean(dat)
muVals <- seq(low,high, length = 1000)
likVals <- sapply(muVals,
function(mu){
(sum((dat - mu)^2) /
sum((dat - mn)^2)) ^ (-n/2)
}
)
Minha pergunta específica é se existe uma relação conhecida entre esses dois tipos de intervalos e por que o intervalo de confiança parece ser mais conservador para todos os casos, exceto quando n = 3. Comentários / respostas sobre se meus cálculos são válidos (e uma maneira melhor de fazer isso) e a relação geral entre esses dois tipos de intervalos também são desejados.
Código R:
samp.size=c(3,4,5,10,20,1000)
cnt2<-1
ints=matrix(nrow=length(samp.size),ncol=4)
layout(matrix(c(1,2,7,3,4,7,5,6,7),nrow=3,ncol=3, byrow=T))
par(mar=c(5.1,4.1,4.1,4.1))
for(j in samp.size){
#set.seed(200)
dat<-rnorm(j,0,1)
vals<-seq(.001,.999, by=.001)
cis<-matrix(nrow=length(vals),ncol=3)
cnt<-1
for(ci in vals){
x<-t.test(dat,conf.level=ci)$conf.int[1:2]
cis[cnt,]<-cbind(ci,x[1],x[2])
cnt<-cnt+1
}
mn=mean(dat)
n=length(dat)
high<-max(c(dat,cis[970,3]), na.rm=T)
low<-min(c(dat,cis[970,2]), na.rm=T)
#high<-max(abs(c(dat,cis[970,2],cis[970,3])), na.rm=T)
#low<--high
muVals <- seq(low,high, length = 1000)
likVals <- sapply(muVals,
function(mu){
(sum((dat - mu)^2) /
sum((dat - mn)^2)) ^ (-n/2)
}
)
plot(muVals, likVals, type = "l", lwd=3, col="Blue", xlim=c(low,high),
ylim=c(-.1,1), ylab="Likelihood/Alpha", xlab="Values",
main=c(paste("n=",n),
"True Mean=0 True sd=1",
paste("Sample Mean=", round(mn,2), "Sample sd=", round(sd(dat),2)))
)
axis(side=4,at=seq(0,1,length=6),
labels=round(seq(0,max(density(dat)$y),length=6),2))
mtext(4, text="Density", line=2.2,cex=.8)
lines(density(dat)$x,density(dat)$y/max(density(dat)$y), lwd=2, col="Green")
lines(range(muVals[likVals>1/20]), c(1/20,1/20), col="Blue", lwd=4)
lines(cis[,2],1-cis[,1], lwd=3, col="Red")
lines(cis[,3],1-cis[,1], lwd=3, col="Red")
lines(cis[which(round(cis[,1],3)==.95),2:3],rep(.05,2),
lty=3, lwd=4, col="Red")
abline(v=mn, lty=2, lwd=2)
#abline(h=.05, lty=3, lwd=4, col="Red")
abline(h=0, lty=1, lwd=3)
abline(v=0, lty=3, lwd=1)
boxplot(dat,at=-.1,add=T, horizontal=T, boxwex=.1, col="Green")
stripchart(dat,at=-.1,add=T, pch=16, cex=1.1)
legend("topleft", legend=c("Likelihood"," Confidence Interval", "Sample Density"),
col=c("Blue","Red", "Green"), lwd=3,bty="n")
ints[cnt2,]<-cbind(range(muVals[likVals>1/20])[1],range(muVals[likVals>1/20])[2],
cis[which(round(cis[,1],3)==.95),2],cis[which(round(cis[,1],3)==.95),3])
cnt2<-cnt2+1
}
par(mar=c(5.1,4.1,4.1,2.1))
plot(0,0, type="n", ylim=c(1,nrow(ints)+.5), xlim=c(min(ints),max(ints)),
yaxt="n", ylab="Sample Size", xlab="Values")
for(i in 1:nrow(ints)){
segments(ints[i,1],i+.2,ints[i,2],i+.2, lwd=3, col="Blue")
segments(ints[i,3],i+.3,ints[i,4],i+.3, lwd=3, col="Red")
}
axis(side=2, at=seq(1.25,nrow(ints)+.25,by=1), samp.size)
mn
é um erro de digitaçãomu
, e nãomean(dat)
. Como falei nos comentários de sua outra pergunta , isso deve ficar claro na página 23 das definições.Respostas:
Não darei uma resposta completa (tenho dificuldade em entender exatamente o que você está fazendo), mas tentarei esclarecer como a probabilidade de perfil é criada. Posso completar minha resposta mais tarde.
A probabilidade total de uma amostra normal de tamanho é G ( μ , σ 2 ) = ( σ 2 ) - n / 2 exp ( - Σ i ( x i - μ ) 2 / 2 σ 2 ) .n
Link com a probabilidade Tentarei destacar o link com a probabilidade no gráfico a seguir.
Primeiro defina a probabilidade:
Em seguida, faça um gráfico de contorno:
Os valores da probabilidade do perfil são os valores obtidos pela probabilidade ao longo da parábola vermelha.
Você também pode usar a probabilidade do perfil para criar testes de pontuação, por exemplo.
fonte
mn
era um erro de digitação, agora acho que o código R está errado. Vou checar amanhã - é tarde onde eu moro.Estes são resultados clássicos e, portanto, simplesmente fornecerei algumas referências sobre isso:
http://www.jstor.org/stable/2347496
http://www.stata-journal.com/sjpdf.html?articlenum=st0132
http://www.unc.edu/courses/2010fall/ecol/563/001/docs/lectures/lecture11.htm
http://en.wikipedia.org/wiki/Likelihood-ratio_test
http://en.wikipedia.org/wiki/Likelihood_function#Profile_likelihood
O código R a seguir mostra que, mesmo para amostras pequenas, os intervalos obtidos com as duas abordagens são semelhantes (estou reutilizando o exemplo de Elvis):
Observe que você precisa usar a probabilidade de perfil normalizada.
Se usarmos um tamanho de amostra maior, os intervalos de confiança serão ainda mais próximos:
UM PONTO IMPORTANTE:
Observe que, para amostras específicas, diferentes tipos de intervalos de confiança podem diferir em termos de comprimento ou localização, o que realmente importa é a cobertura. A longo prazo, todos eles devem fornecer a mesma cobertura, independentemente de quanto diferem para amostras específicas.
fonte
O quadrático é importante porque define uma distribuição normal em escala logarítmica. Quanto mais quadrático, melhor a aproximação e os ICs resultantes. Sua escolha do ponto de corte de 1/20 para os intervalos de probabilidade é equivalente a mais de um IC de 95% no limite assintótico, motivo pelo qual os intervalos azuis geralmente são mais longos que os vermelhos.
Agora, há outro problema com a probabilidade de perfil que precisa de alguma atenção. Se você tiver várias variáveis nas quais está criando um perfil, se o número de pontos de dados por dimensão for baixo, a probabilidade do perfil poderá ser muito tendenciosa e otimista. As probabilidades de perfil marginal, condicional e modificado são usadas para reduzir esse viés.
Portanto, a resposta para sua pergunta é SIM ... a conexão é a normalidade assintótica da maioria dos estimadores de probabilidade máxima, como se manifesta na distribuição qui-quadrado da razão de verossimilhança.
fonte