Por favor, peço desculpas pelo meu massacre da linguagem estatística :) Encontrei aqui algumas perguntas relacionadas à publicidade e taxas de cliques. Mas nenhum deles me ajudou muito com minha compreensão da minha situação hierárquica.
Há uma pergunta relacionada. São essas representações equivalentes do mesmo modelo bayesiano hierárquico? , mas não tenho certeza se eles realmente têm um problema semelhante. Outra pergunta Os anteriores do modelo binomial bayesiano hierárquico entram em detalhes sobre os hiperpriors, mas não sou capaz de mapear sua solução para o meu problema
Tenho alguns anúncios online para um novo produto. Deixei os anúncios em exibição por alguns dias. Nesse ponto, muitas pessoas clicaram nos anúncios para ver qual recebe mais cliques. Depois de expulsar todos, exceto o que tem mais cliques, deixo que ele corra por mais alguns dias para ver o quanto as pessoas realmente compram depois de clicar no anúncio. Nesse momento, sei se foi uma boa ideia exibir os anúncios em primeiro lugar.
Minhas estatísticas são muito barulhentas porque não tenho muitos dados, pois estou vendendo apenas alguns itens todos os dias. Portanto, é realmente difícil estimar quantas pessoas compram algo depois de ver um anúncio. Somente cerca de um em cada 150 cliques resulta em uma compra.
De um modo geral, preciso saber se estou perdendo dinheiro em cada anúncio o mais rápido possível, suavizando as estatísticas por grupo de anúncios com estatísticas globais sobre todos os anúncios.
- Se eu esperar até que todos os anúncios vejam compras suficientes, falharei porque leva muito tempo: para testar 10 anúncios, preciso gastar 10 vezes mais dinheiro para que as estatísticas de cada anúncio fiquem suficientemente confiáveis. Naquela época, eu poderia ter perdido dinheiro.
- Se eu fizer uma média de compras em todos os anúncios, não poderei lançar anúncios que simplesmente não estão funcionando tão bem.
I podem utilizar a taxa de compra global ( n $ sub-distribuições? Isso significaria que, quanto mais dados eu tenho para cada anúncio, mais independentes são as estatísticas desse anúncio. Se ninguém clicou em um anúncio ainda, presumo que a média global seja apropriada.
Qual distribuição eu escolheria para isso?
Se eu tive 20 cliques em A e 4 cliques em B, como posso modelar isso? Até agora, descobri que uma distribuição binomial ou de Poisson pode fazer sentido aqui:
purchase_rate ~ poisson
(?)(purchase_rate | group A) ~ poisson
(estime a taxa de compra apenas para o grupo A?)
Mas o que eu faço a seguir para realmente calcular o purchase_rate | group A
. Como uno duas distribuições para fazer sentido para o grupo A (ou qualquer outro grupo).
Preciso ajustar um modelo primeiro? Eu tenho dados que eu poderia usar para "treinar" um modelo:
- Anúncio A: 352 cliques, 5 compras
- Anúncio B: 15 cliques, 0 compras
- Anúncio C: 3519 cliques, 130 compras
Estou procurando uma maneira de estimar a probabilidade de qualquer um dos grupos. Se um grupo tiver apenas alguns pontos de dados, quero essencialmente voltar à média global. Conheço um pouco de estatística bayesiana e li muitos PDFs de pessoas descrevendo como modelam usando inferência bayesiana e anteriores conjugados e assim por diante. Eu acho que existe uma maneira de fazer isso corretamente, mas não consigo descobrir como modelá-lo corretamente.
Eu ficaria super feliz com dicas que me ajudariam a formular meu problema de maneira bayesiana. Isso ajudaria muito a encontrar exemplos on-line que eu poderia usar para realmente implementar isso.
Atualizar:
Muito obrigado por responder. Estou começando a entender cada vez mais pequenos detalhes sobre o meu problema. Obrigado! Deixe-me fazer algumas perguntas para ver se entendi um pouco melhor o problema agora:
Então, eu suponho que as conversões são distribuídas como distribuições Beta, e uma distribuição Beta tem dois parâmetros, e b .
O 1 parâmetros são hiperparâmetros, portanto são parâmetros do anterior? Então, no final, defino o número de conversões e o número de cliques como parâmetro da minha distribuição Beta?
Em algum momento, quando eu quiser comparar diferentes anúncios, por isso gostaria de calcular . Como computo cada parte dessa fórmula?
Eu penso que é chamada a probabilidade, ou "modo" de distribuição beta. Então isso é α - 1 , sendoαeβos parâmetros da minha distribuição. Mas osαeβespecíficosaqui são os parâmetros para a distribuição apenas para o anúncioX, certo? Nesse caso, é apenas o número de cliques e conversões que este anúncio viu? Ou quantos cliques / conversõestodos osanúncios viram?
Então eu multiplico com o prior, que é P (conversão), que é, no meu caso, apenas o prior de Jeffreys, que não é informativo. O anterior permanecerá o mesmo que eu obter mais dados?
Divido por , qual é a probabilidade marginal, então conto quantas vezes esse anúncio foi clicado?
Ao usar o anterior de Jeffreys, suponho que estou começando do zero e não sei nada sobre meus dados. Esse prior é chamado "não informativo". Enquanto eu continuo aprendendo sobre meus dados, atualizo o anterior?
Quando cliques e conversões chegam, eu li que tenho que "atualizar" minha distribuição. Isso significa que os parâmetros da minha distribuição mudam ou que as alterações anteriores? Quando recebo um clique no anúncio X, atualizo mais de uma distribuição? Mais de um antes?
fonte
Para obter a estimativa dep fora do seu estimador com parâmetros a , b , você pode escolher o valor máximo de probabilidade, o modo da distribuição Beta.
Em resposta às suas edições:
As conversões não são distribuídas em beta, mas Bernoulli com probabilidadep . Por favor, compare como estou definindouma e b in paragraph 2 with what you wrote. Note that you have a p for each ad, and thus a belief over p for each ad, and each of those beliefs has its own a and b .
The Bayesian update is
wherex is the observation (conversion or no conversion) and p is selected for the appropriate ad.
This formula is already worked into the update for a and b , which works so that in case of a conversion you add 1 to a , otherwise you add 1 to b — this is updating the belief of p .
The Jeffreys' prior is not the same thing as the uninformative prior, but I believe that it's better unless you have a good reason to use it. Feel free to ask another question if you want to start a discussion about that.
fonte