Qual é a intuição por trás da distribuição beta?

438

Disclaimer: Eu não sou um estatístico, mas um engenheiro de software. A maior parte do meu conhecimento em estatística vem da auto-educação, portanto ainda tenho muitas lacunas na compreensão de conceitos que podem parecer triviais para outras pessoas aqui. Ficaria muito grato se as respostas incluíssem termos menos específicos e mais explicações. Imagine que você está conversando com sua avó :)

Estou tentando entender a natureza da distribuição beta - para que ela deve ser usada e como interpretá-la em cada caso. Se estivéssemos falando sobre, digamos, distribuição normal, poderíamos descrevê-la como a hora de chegada de um trem: na maioria das vezes chega bem a tempo, um pouco menos frequentemente é 1 minuto antes ou 1 minuto atrasado e muito raramente chega com diferença de 20 minutos a partir da média. A distribuição uniforme descreve, em particular, a chance de cada ingresso na loteria. A distribuição binomial pode ser descrita com lançamentos de moedas e assim por diante. Mas existe uma explicação intuitiva da distribuição beta ?

Digamos, e . A distribuição beta nesse caso se parece com esta (gerada em R):α=.99β=.5B(α,β)

insira a descrição da imagem aqui

Mas o que isso realmente significa? O eixo Y é obviamente uma densidade de probabilidade, mas o que há no eixo X?

Eu apreciaria muito qualquer explicação, com este exemplo ou qualquer outro.

amiga
fonte
13
O eixo y não é uma probabilidade (o que é óbvio, porque, por definição, uma probabilidade não pode estar fora do intervalo , mas esse gráfico se estende até e - em princípio - a ). É uma densidade de probabilidade : uma probabilidade por unidade de (e você descreveu como uma taxa). [0,1]50xx
whuber
4
@ whuber: sim, eu entendo o que é PDF - isso foi apenas um erro na minha descrição. Obrigado por uma nota válida!
ffriend
1
Tentarei encontrar a referência, mas conheço algumas das formas mais bizarras da distribuição Beta generalizada com a forma com aplicativos como a física. Além disso, você pode ajustá-lo aos dados de especialistas (mínimo, modo, máximo) em ambientes com poucos dados e geralmente é melhor do que usar uma distribuição Triangular (infelizmente usada frequentemente pelos IEs). a+(ba)Beta(α1,α2)
SecretAgentMan
Você obviamente nunca viajou com a empresa ferroviária Deutsche Bahn. Você seria menos otimista.
henning 19/04

Respostas:

621

A versão curta é que a distribuição Beta pode ser entendida como representando uma distribuição de probabilidades - isto é, representa todos os valores possíveis de uma probabilidade quando não sabemos qual é essa probabilidade. Aqui está minha explicação intuitiva favorita disso:

Quem segue o beisebol está familiarizado com as médias de rebatidas - simplesmente o número de vezes que um jogador recebe um golpe base dividido pelo número de vezes que sobe no bastão (portanto, é apenas uma porcentagem entre 0e 1). .266é geralmente considerado uma média média de rebatidas, enquanto .300é considerada excelente.

Imagine que temos um jogador de beisebol e queremos prever qual será sua média de rebatidas ao longo da temporada. Você pode dizer que podemos usar a média de rebatidas dele até agora - mas essa será uma medida muito ruim no início de uma temporada! Se um jogador vai para o taco uma vez e recebe um single, sua média de rebatidas é brevemente 1.000, enquanto se ele atacar, sua média é de rebatidas 0.000. Não fica muito melhor se você começar a bater cinco ou seis vezes - você pode obter uma sequência de sorte e obter uma média de 1.000, ou uma sequência de azar e obter uma média de 0, nenhuma das quais é um bom preditor de como você vai bater nessa temporada.

Por que sua média de rebatidas nos primeiros hits não é um bom indicador de sua eventual média de rebatidas? Quando o primeiro atacante de um jogador é um strikeout, por que ninguém prevê que ele nunca será atingido durante toda a temporada? Porque estamos entrando com expectativas anteriores. Sabemos que, na história, a maioria das médias de rebatidas ao longo de uma temporada oscilou entre algo como .215e .360, com algumas exceções extremamente raras dos dois lados. Sabemos que, se um jogador recebe alguns strikeouts seguidos no início, isso pode indicar que ele vai acabar um pouco pior que a média, mas sabemos que ele provavelmente não se desviará desse intervalo.

Dado o nosso problema da média de rebatidas, que pode ser representado com uma distribuição binomial (uma série de sucessos e falhas), a melhor maneira de representar essas expectativas anteriores (o que chamamos de prioritário nas estatísticas ) é com a distribuição Beta. antes de vermos o jogador dar seu primeiro golpe, o que esperamos ser sua média de rebatidas. O domínio da distribuição Beta é (0, 1), exatamente como uma probabilidade, então já sabemos que estamos no caminho certo - mas a adequação do Beta para esta tarefa vai muito além disso.

Esperamos que a média de rebatidas da temporada seja mais provável .27, mas que possa variar razoavelmente de .21até .35. Isso pode ser representado com uma distribuição Beta com os parâmetros e β = 219 :α=81β=219

curve(dbeta(x, 81, 219))

Beta (81, 219)

Eu vim com esses parâmetros por dois motivos:

  • A média é αα+β=8181+219=.270
  • Como você pode ver na trama, essa distribuição está quase inteiramente dentro (.2, .35)- a faixa razoável para uma média de rebatidas.

Você perguntou o que o eixo x representa em um gráfico de densidade de distribuição beta - aqui ele representa sua média de rebatidas. Portanto, observe que, nesse caso, não apenas o eixo y é uma probabilidade (ou mais precisamente uma densidade de probabilidade), mas também o eixo x (a média de rebatidas é apenas a probabilidade de um acerto, afinal)! A distribuição Beta está representando uma distribuição de probabilidades .

Mas aqui está o porquê da distribuição Beta ser tão apropriada. Imagine que o jogador recebe um único golpe. Seu recorde para a temporada é agora 1 hit; 1 at bat. Temos que atualizar nossas probabilidades - queremos mudar toda essa curva um pouco para refletir nossas novas informações. Embora a matemática para provar isso esteja um pouco envolvida ( é mostrada aqui ), o resultado é muito simples . A nova distribuição Beta será:

Beta(α0+hits,β0+misses)

α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

insira a descrição da imagem aqui

Observe que ele quase não mudou - a mudança é realmente invisível a olho nu! (Isso ocorre porque um hit não significa realmente nada).

Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

insira a descrição da imagem aqui

Observe que agora a curva está mais fina e deslocada para a direita (maior média de rebatidas) do que costumava ser - temos uma noção melhor de qual é a média de rebatidas do jogador.

αα+β81+10081+100+219+200=.303100100+200=.3338181+219=.270

Assim, a distribuição Beta é melhor para representar uma distribuição probabilística de probabilidades - o caso em que não sabemos antecipadamente qual é a probabilidade, mas temos algumas suposições razoáveis.

David Robinson
fonte
5
@ffriend: Ainda bem que helped- Eu espero que você siga baseball (caso contrário, gostaria de saber se é compreensível!)
David Robinson
11
Aqui está um exemplo semelhante de John Cook usando classificações binárias de vendedores da Amazon com diferentes números de análises. A discussão sobre a escolha de um prior nos comentários é particularmente esclarecedora: johndcook.com/blog/2011/09/27/bayesian-amazon/#comments
Dimitriy V. Masterov
4
α0=β0=1/2
4
Gosto da sua explicação de como você atualiza a distribuição quando tem mais dados.
precisa saber é o seguinte
2
@ user27997 Aqueles deram a média desejada de 0,27 e um desvio-padrão bastante realista para as médias de rebatidas (cerca de 0,025). Aliás, dou uma explicação de como calcular α e β a partir da média e variância desejadas aqui .
David Robinson
48

Uma distribuição Beta é usada para modelar itens com um alcance limitado, como 0 a 1.

Exemplos são a probabilidade de sucesso em um experimento com apenas dois resultados, como sucesso e fracasso. Se você realizar um número limitado de experiências, e algumas forem bem-sucedidas, poderá representar o que isso diz por uma distribuição beta.

Outro exemplo são as estatísticas de pedidos . Por exemplo, se você gerar vários (digamos 4) números aleatórios 0,1 uniformes e os classificar, qual é a distribuição do terceiro?

nss>1Beta(s+1,(ns)+1)

Mais sobre isso ...

Mike Dunlavey
fonte
41

(0,1)

U1Unn(0,1)U(1)U(n)(U1,,Un)U1UnU(1)=min(Ui)U(n)=max(Ui)U(k)Beta(k,n+1k)k=1,,n

Este resultado mostra que as distribuições Beta aparecem naturalmente em matemática e tem algumas aplicações interessantes em matemática.

Stéphane Laurent
fonte
28

Existem duas motivações principais:

Primeiro, a distribuição beta é conjugada antes da distribuição de Bernoulli. Isso significa que, se você tem uma probabilidade desconhecida, como o viés de uma moeda que está estimando com lançamentos repetidos de moedas, a probabilidade induzida no viés desconhecido por uma sequência de lançamentos de moedas é distribuída em beta.

log(x)log(1x)x[0,1]x1,,xn

A distribuição beta não é especial para modelar as coisas em geral [0,1], pois muitas distribuições podem ser truncadas para esse suporte e são mais aplicáveis ​​em muitos casos.

Neil G
fonte
23

insira a descrição da imagem aqui

Vamos supor que um vendedor em um site de comércio eletrônico receba 500 classificações, das quais 400 são boas e 100 são ruins.

p

A qualidade ingênua em termos de classificações do vendedor é de 80% porque 0,8 = 400 / 500. Mas a qualidade "verdadeira" em termos de classificações que não conhecemos.

p=77%

p

α=400+1β=100+1

p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/

Raffael
fonte
3
Obrigado pela sua contribuição! No entanto, estou intrigado com algo: embora a legenda do histograma afirme que eles mostram densidades beta , você parece alegar que eles também descrevem os resultados das simulações binomiais ("com que frequência aconteceu em uma simulação"). Mas as duas são coisas diferentes, mesmo que pareçam bastante próximas na ilustração. (Isso é uma conseqüência da quase normalidade do Beta com grandes parâmetros e do teorema do limite central para distribuições
binomiais
Essa é uma boa opinião! Mas não sei como reformulá-lo adequadamente. Se eu apenas plotasse o histograma, é claro, você não veria grande parte da densidade, dada a magnitude dele. Então, sim, o histograma é, na verdade, acho que não apenas em escala reduzida, mas na verdade a densidade (estimada) do histograma original. Dado o número de execuções, eu também poderia descobrir um fator e reduzi-lo linearmente, mas seria quase exatamente o mesmo MAIS o que eu (na verdade) quero comparar é a densidade de beta com a densidade do resultado da simulação (o densidade do histograma original).
precisa
8

Até o momento, a preponderância de respostas abrangeu a lógica de geração de RVs beta como a anterior para proporções de amostra, e uma resposta inteligente relacionou os RVs beta com estatísticas de pedidos.

As distribuições beta também surgem de uma relação simples entre dois RVs gama (k_i, 1), i = 1,2 os chama X e Y. X / (X + Y) tem uma distribuição beta.

Os RVs gama já têm sua lógica na modelagem dos horários de chegada para eventos independentes, portanto não abordarei isso, pois não é sua pergunta. Mas uma "fração de tempo" gasta na conclusão de uma das duas tarefas executadas em sequência naturalmente se presta a uma distribuição Beta.

AdamO
fonte
1
+1 Obrigado por apontar isso sobre o uso de Gamma para formar uma distribuição Beta. Ouvi dizer que se você deseja generalizar o Beta em um Dirichlet, basta colocar mais Gammas no denominador. Talvez um estatístico apenas saiba disso, mas para mim isso foi realmente útil quando analisamos os intervalos de confiança de uma observação categórica.
Mike Dunlavey 23/03
4

x(1x)f(x;α,β)=constantxα1(1x)β11/B(α,β)αβé como um "peso" para a contribuição da falha. Você tem um espaço de parâmetro bidimensional (um para contribuição de sucessos e outro para contribuição de falhas), o que dificulta a reflexão e a compreensão.

Mateus
fonte
3

No exemplo citado, os parâmetros são alfa = 81 e beta = 219 do ano anterior [81 acertos em 300 em morcegos ou (81 e 300 - 81 = 219)]

Eu não sei o que eles chamam de suposição prévia de 81 hits e 219 outs, mas em inglês, essa é a suposição a priori.

Observe como, à medida que a estação avança, a curva muda para a esquerda ou direita e a probabilidade modal muda para a esquerda ou direita, mas ainda existe uma curva.

Gostaria de saber se o Laa de Grandes Números eventualmente se apodera e leva a média de rebatidas de volta a 0,270.

Para estimar o alfa e o beta em geral, seria necessário o número completo de ocorrências anteriores (em bastões), a média de batidas conhecida, obter o total de acertos (o alfa), o beta ou o total geral menos as falhas) e pronto - você tem sua fórmula. Em seguida, trabalhe os dados adicionais conforme mostrado.

stevmg
fonte
2

F(X)=tanh((x/p)n)

A propósito, o que acontece se você produzir uma distribuição de tamanho a partir de uma observação microscópica e tiver uma distribuição de partículas em número, e seu objetivo é trabalhar com uma distribuição de volume? É quase obrigatório obter a distribuição original em número delimitada à direita. Portanto, a transformação é mais consistente porque você tem certeza de que na nova distribuição de volume não aparece nenhum modo, nem mediana nem tamanho médio fora do intervalo em que está trabalhando. Além disso, você evita o efeito da Groenlândia na África.

A transformação é muito fácil se você tiver formas regulares, isto é, uma esfera ou um prisma. Você deve adicionar três unidades ao parâmetro alfa da distribuição número beta e obter a distribuição do volume.

Agustín Francisco CORREA
fonte
1
Bem vindo ao site. Isso foi planejado como uma resposta à pergunta do OP? Você pode esclarecer como isso se relaciona com a intuição por trás da distribuição beta?
gung
Edite para esclarecer a intuição sobre uma distribuição beta.
Glen_b
1

Eu acho que não há intuição por trás da distribuição beta! A distribuição beta é apenas uma distribuição muito flexível com a gama FIX! E para o número inteiro aeb, é fácil lidar com isso. Muitos casos especiais da versão beta também têm seu significado nativo, como a distribuição uniforme. Portanto, se os dados precisarem ser modelados dessa maneira, ou com um pouco mais de flexibilidade, o beta será uma escolha muito boa.

user32038
fonte
0

Em outra questão referente à distribuição beta, é fornecida a seguinte intuição por trás do beta:

Em outras palavras, a distribuição beta pode ser vista como a distribuição de probabilidades no centro de uma distribuição instável.

Para obter detalhes, consulte a resposta completa em https://stats.stackexchange.com/a/429754/142758

Jojo
fonte