Considere uma distribuição beta para um determinado conjunto de classificações em [0,1]. Depois de calcular a média:
Existe uma maneira de fornecer um intervalo de confiança em torno dessa média?
mean
beta-distribution
dominic
fonte
fonte
Respostas:
Embora existam métodos específicos para calcular intervalos de confiança para os parâmetros em uma distribuição beta, descreverei alguns métodos gerais, que podem ser usados para (quase) todos os tipos de distribuições , incluindo a distribuição beta, e são facilmente implementados em R .
Intervalos de confiança da probabilidade do perfil
Vamos começar com a estimativa de probabilidade máxima com intervalos de confiança de probabilidade de perfil correspondentes. Primeiro, precisamos de alguns dados de amostra:
A média real / teórica é
Agora precisamos criar uma função para calcular a função de probabilidade de log negativa para uma amostra da distribuição beta, com a média como um dos parâmetros. Podemos usar a
dbeta()
função, mas como isso não usa uma parametrização envolvendo a média, temos que expressar seus parâmetros ( α e β ) como uma função da média e algum outro parâmetro (como o desvio padrão):Para encontrar a estimativa de probabilidade máxima, podemos usar a
mle()
função nastats4
biblioteca:Apenas ignore os avisos por enquanto. Eles são causados pelos algoritmos de otimização que tentam valores inválidos para os parâmetros, fornecendo valores negativos para α e / ou β . (Para evitar o aviso, você pode adicionar um
lower
argumento e alterar a otimizaçãomethod
usada.)Agora, temos estimativas e intervalos de confiança para nossos dois parâmetros:
Observe que, como esperado, os intervalos de confiança não são simétricos:
(As segundas linhas magentas externas mostram o intervalo de confiança de 95%.)
Observe também que, mesmo com apenas 10 observações, obtemos estimativas muito boas (um intervalo de confiança estreito).
Como alternativa
mle()
, você pode usar afitdistr()
função doMASS
pacote. Isso também calcula o estimador de probabilidade máxima e tem a vantagem de que você só precisa fornecer a densidade, não a probabilidade negativa do log, mas não fornece intervalos de confiança da probabilidade do perfil, apenas intervalos de confiança assintóticos (simétricos).Uma opção melhor é
mle2()
(e funções relacionadas) dobbmle
pacote, que é um pouco mais flexível e poderoso do quemle()
e oferece gráficos um pouco mais agradáveis.Intervalos de confiança de inicialização
Outra opção é usar o bootstrap. É extremamente fácil de usar no R, e você nem precisa fornecer uma função de densidade:
O bootstrap tem a vantagem adicional de funcionar, mesmo que seus dados não venham de uma distribuição beta.
Intervalos de confiança assintóticos
Para intervalos de confiança médios, não vamos esquecer os bons e velhos intervalos de confiança assintóticos baseados no teorema do limite central (e na distribuição t ). Desde que tenhamos um tamanho de amostra grande (para que o CLT se aplique e a distribuição da média da amostra seja aproximadamente normal) ou grandes valores de α e β (para que a distribuição beta em si seja aproximadamente normal), ela funcionará bem. Aqui não temos nenhum, mas o intervalo de confiança ainda não é tão ruim:
Para valores ligeiramente maiores de n (e não valores extremos demais para os dois parâmetros), o intervalo de confiança assintótica funciona extremamente bem.
fonte
Confira a regressão beta. Uma boa introdução a como fazê-lo usando R pode ser encontrada aqui:
http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf
Outra maneira (realmente fácil) de construir um intervalo de confiança seria usar uma abordagem não paramétrica de boostrap. A Wikipedia tem boas informações:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
Também um bom vídeo aqui:
http://www.youtube.com/watch?v=ZCXg64l9R_4
fonte