Disclaimer: Eu não sou um estatístico, mas um engenheiro de software. A maior parte do meu conhecimento em estatística vem da auto-educação, portanto ainda tenho muitas lacunas na compreensão de conceitos que podem parecer triviais para outras pessoas aqui. Ficaria muito grato se as respostas incluíssem termos menos específicos e mais explicações. Imagine que você está conversando com sua avó :)
Estou tentando entender a natureza da distribuição beta - para que ela deve ser usada e como interpretá-la em cada caso. Se estivéssemos falando sobre, digamos, distribuição normal, poderíamos descrevê-la como a hora de chegada de um trem: na maioria das vezes chega bem a tempo, um pouco menos frequentemente é 1 minuto antes ou 1 minuto atrasado e muito raramente chega com diferença de 20 minutos a partir da média. A distribuição uniforme descreve, em particular, a chance de cada ingresso na loteria. A distribuição binomial pode ser descrita com lançamentos de moedas e assim por diante. Mas existe uma explicação intuitiva da distribuição beta ?
Digamos, e . A distribuição beta nesse caso se parece com esta (gerada em R):
Mas o que isso realmente significa? O eixo Y é obviamente uma densidade de probabilidade, mas o que há no eixo X?
Eu apreciaria muito qualquer explicação, com este exemplo ou qualquer outro.
Respostas:
A versão curta é que a distribuição Beta pode ser entendida como representando uma distribuição de probabilidades - isto é, representa todos os valores possíveis de uma probabilidade quando não sabemos qual é essa probabilidade. Aqui está minha explicação intuitiva favorita disso:
Quem segue o beisebol está familiarizado com as médias de rebatidas - simplesmente o número de vezes que um jogador recebe um golpe base dividido pelo número de vezes que sobe no bastão (portanto, é apenas uma porcentagem entre
0
e1
)..266
é geralmente considerado uma média média de rebatidas, enquanto.300
é considerada excelente.Imagine que temos um jogador de beisebol e queremos prever qual será sua média de rebatidas ao longo da temporada. Você pode dizer que podemos usar a média de rebatidas dele até agora - mas essa será uma medida muito ruim no início de uma temporada! Se um jogador vai para o taco uma vez e recebe um single, sua média de rebatidas é brevemente
1.000
, enquanto se ele atacar, sua média é de rebatidas0.000
. Não fica muito melhor se você começar a bater cinco ou seis vezes - você pode obter uma sequência de sorte e obter uma média de1.000
, ou uma sequência de azar e obter uma média de0
, nenhuma das quais é um bom preditor de como você vai bater nessa temporada.Por que sua média de rebatidas nos primeiros hits não é um bom indicador de sua eventual média de rebatidas? Quando o primeiro atacante de um jogador é um strikeout, por que ninguém prevê que ele nunca será atingido durante toda a temporada? Porque estamos entrando com expectativas anteriores. Sabemos que, na história, a maioria das médias de rebatidas ao longo de uma temporada oscilou entre algo como
.215
e.360
, com algumas exceções extremamente raras dos dois lados. Sabemos que, se um jogador recebe alguns strikeouts seguidos no início, isso pode indicar que ele vai acabar um pouco pior que a média, mas sabemos que ele provavelmente não se desviará desse intervalo.Dado o nosso problema da média de rebatidas, que pode ser representado com uma distribuição binomial (uma série de sucessos e falhas), a melhor maneira de representar essas expectativas anteriores (o que chamamos de prioritário nas estatísticas ) é com a distribuição Beta. antes de vermos o jogador dar seu primeiro golpe, o que esperamos ser sua média de rebatidas. O domínio da distribuição Beta é
(0, 1)
, exatamente como uma probabilidade, então já sabemos que estamos no caminho certo - mas a adequação do Beta para esta tarefa vai muito além disso.Esperamos que a média de rebatidas da temporada seja mais provávelα=81 β=219
.27
, mas que possa variar razoavelmente de.21
até.35
. Isso pode ser representado com uma distribuição Beta com os parâmetros e β = 219 :Eu vim com esses parâmetros por dois motivos:
(.2, .35)
- a faixa razoável para uma média de rebatidas.Você perguntou o que o eixo x representa em um gráfico de densidade de distribuição beta - aqui ele representa sua média de rebatidas. Portanto, observe que, nesse caso, não apenas o eixo y é uma probabilidade (ou mais precisamente uma densidade de probabilidade), mas também o eixo x (a média de rebatidas é apenas a probabilidade de um acerto, afinal)! A distribuição Beta está representando uma distribuição de probabilidades .
Mas aqui está o porquê da distribuição Beta ser tão apropriada. Imagine que o jogador recebe um único golpe. Seu recorde para a temporada é agora
1 hit; 1 at bat
. Temos que atualizar nossas probabilidades - queremos mudar toda essa curva um pouco para refletir nossas novas informações. Embora a matemática para provar isso esteja um pouco envolvida ( é mostrada aqui ), o resultado é muito simples . A nova distribuição Beta será:Observe que ele quase não mudou - a mudança é realmente invisível a olho nu! (Isso ocorre porque um hit não significa realmente nada).
Observe que agora a curva está mais fina e deslocada para a direita (maior média de rebatidas) do que costumava ser - temos uma noção melhor de qual é a média de rebatidas do jogador.
Assim, a distribuição Beta é melhor para representar uma distribuição probabilística de probabilidades - o caso em que não sabemos antecipadamente qual é a probabilidade, mas temos algumas suposições razoáveis.
fonte
Uma distribuição Beta é usada para modelar itens com um alcance limitado, como 0 a 1.
Exemplos são a probabilidade de sucesso em um experimento com apenas dois resultados, como sucesso e fracasso. Se você realizar um número limitado de experiências, e algumas forem bem-sucedidas, poderá representar o que isso diz por uma distribuição beta.
Outro exemplo são as estatísticas de pedidos . Por exemplo, se você gerar vários (digamos 4) números aleatórios 0,1 uniformes e os classificar, qual é a distribuição do terceiro?
Mais sobre isso ...
fonte
Este resultado mostra que as distribuições Beta aparecem naturalmente em matemática e tem algumas aplicações interessantes em matemática.
fonte
Existem duas motivações principais:
Primeiro, a distribuição beta é conjugada antes da distribuição de Bernoulli. Isso significa que, se você tem uma probabilidade desconhecida, como o viés de uma moeda que está estimando com lançamentos repetidos de moedas, a probabilidade induzida no viés desconhecido por uma sequência de lançamentos de moedas é distribuída em beta.
A distribuição beta não é especial para modelar as coisas em geral [0,1], pois muitas distribuições podem ser truncadas para esse suporte e são mais aplicáveis em muitos casos.
fonte
Vamos supor que um vendedor em um site de comércio eletrônico receba 500 classificações, das quais 400 são boas e 100 são ruins.
A qualidade ingênua em termos de classificações do vendedor é de 80% porque 0,8 = 400 / 500. Mas a qualidade "verdadeira" em termos de classificações que não conhecemos.
http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/
fonte
Até o momento, a preponderância de respostas abrangeu a lógica de geração de RVs beta como a anterior para proporções de amostra, e uma resposta inteligente relacionou os RVs beta com estatísticas de pedidos.
As distribuições beta também surgem de uma relação simples entre dois RVs gama (k_i, 1), i = 1,2 os chama X e Y. X / (X + Y) tem uma distribuição beta.
Os RVs gama já têm sua lógica na modelagem dos horários de chegada para eventos independentes, portanto não abordarei isso, pois não é sua pergunta. Mas uma "fração de tempo" gasta na conclusão de uma das duas tarefas executadas em sequência naturalmente se presta a uma distribuição Beta.
fonte
fonte
No exemplo citado, os parâmetros são alfa = 81 e beta = 219 do ano anterior [81 acertos em 300 em morcegos ou (81 e 300 - 81 = 219)]
Eu não sei o que eles chamam de suposição prévia de 81 hits e 219 outs, mas em inglês, essa é a suposição a priori.
Observe como, à medida que a estação avança, a curva muda para a esquerda ou direita e a probabilidade modal muda para a esquerda ou direita, mas ainda existe uma curva.
Gostaria de saber se o Laa de Grandes Números eventualmente se apodera e leva a média de rebatidas de volta a 0,270.
Para estimar o alfa e o beta em geral, seria necessário o número completo de ocorrências anteriores (em bastões), a média de batidas conhecida, obter o total de acertos (o alfa), o beta ou o total geral menos as falhas) e pronto - você tem sua fórmula. Em seguida, trabalhe os dados adicionais conforme mostrado.
fonte
A propósito, o que acontece se você produzir uma distribuição de tamanho a partir de uma observação microscópica e tiver uma distribuição de partículas em número, e seu objetivo é trabalhar com uma distribuição de volume? É quase obrigatório obter a distribuição original em número delimitada à direita. Portanto, a transformação é mais consistente porque você tem certeza de que na nova distribuição de volume não aparece nenhum modo, nem mediana nem tamanho médio fora do intervalo em que está trabalhando. Além disso, você evita o efeito da Groenlândia na África.
A transformação é muito fácil se você tiver formas regulares, isto é, uma esfera ou um prisma. Você deve adicionar três unidades ao parâmetro alfa da distribuição número beta e obter a distribuição do volume.
fonte
Eu acho que não há intuição por trás da distribuição beta! A distribuição beta é apenas uma distribuição muito flexível com a gama FIX! E para o número inteiro aeb, é fácil lidar com isso. Muitos casos especiais da versão beta também têm seu significado nativo, como a distribuição uniforme. Portanto, se os dados precisarem ser modelados dessa maneira, ou com um pouco mais de flexibilidade, o beta será uma escolha muito boa.
fonte
Em outra questão referente à distribuição beta, é fornecida a seguinte intuição por trás do beta:
Para obter detalhes, consulte a resposta completa em https://stats.stackexchange.com/a/429754/142758
fonte