Como modelar uma moeda tendenciosa com viés variável no tempo?

10

Modelos de moedas tendenciosas normalmente têm um parâmetro . Uma maneira de estimar partir de uma série de empates é usar uma distribuição beta anterior e computar a distribuição posterior com probabilidade binomial.θθ=P(Head|θ)θ

Nas minhas configurações, devido a algum processo físico estranho, minhas propriedades da moeda estão mudando lentamente e se torna uma função do tempo . Meus dados são um conjunto de empates ordenados, ou seja, . Posso considerar que tenho apenas um empate para cada em uma grade de tempo discreta e regular.t { H , T , H , H , H , T , . . . } tθt{H,T,H,H,H,T,...}t

Como você modelaria isso? Estou pensando em algo como um filtro Kalman adaptado ao fato de que a variável oculta é e mantendo a probabilidade binomial. O que eu poderia usar para modelar para manter a inferência tratável?P ( θ ( t + 1 ) | θ ( t ) )θP(θ(t+1)|θ(t))

Edite as seguintes respostas (obrigado!) : Gostaria de modelar como uma cadeia de Markov da ordem 1, como é feita nos filtros HMM ou Kalman. A única suposição que posso fazer é que é suave. Eu poderia escrever com um pequeno ruído gaussiano (idéia do filtro de Kalman), mas isso quebraria o requisito de que deve permanecer em . Seguindo a idéia de @J Dav, eu poderia usar uma função probit para mapear a linha real para , mas tenho a intuição de que isso daria uma solução não analítica. Uma distribuição beta com médiaθ ( t ) P ( θ ( t + 1 ) | θ ( t ) ) = θ ( t ) + ϵ ϵ θ [ 0 , 1 ] [ 0 , 1 ] θ ( t )θ(t)θ(t)P(θ(t+1)|θ(t))=θ(t)+ϵϵθ[0,1][0,1]θ(t) e uma variação maior poderia fazer o truque.

Estou fazendo essa pergunta, pois tenho a sensação de que esse problema é tão simples que deve ter sido estudado antes.

repied2
fonte
Você pode obter uma estimativa se tiver um modelo de como a proporção de sucesso muda com o tempo. Muitos modelos diferentes funcionariam e as estimativas poderiam variar muito com base no modelo assumido. Não acho que a tratabilidade seja um critério prático para a escolha de um modelo. Gostaria de entender o processo e procurar um modelo que demonstre características que concordam com o comportamento que você espera.
22812 Michael R. Chernick
@ MichaelChernick: Obrigado. A única suposição que posso fazer é que está se movendo suavemente e lentamente. Além disso, a rastreabilidade é um critério importante, pois eu realmente quero estender a solução para casos multivariados com interdependências não triviais. Uma solução ideal seria analítica e forneceria atualizações 'online' das estimativas de parâmetros quando um novo dado chegar. θ
usar o seguinte comando
11
Você pode quantificar o que você quer dizer com " está se movendo de maneira suave e lenta?" Os números inteiros são discretos e existem funções suaves que assumem valores arbitrários nos números inteiros, o que significa que a suavidade não oferece restrições. Algumas noções de "lentamente" ainda não dão nenhuma restrição, enquanto outras o fazem. θ
Douglas Zare
Quão rápido é "lentamente", como uma mudança na probabilidade de 0,1 / unidade de tempo ou 0,001 ou ... E quanto tempo uma sequência que você espera ter? O intervalo é relativamente estreito (por exemplo, 0,2 - 0,4) ou se aproxima de (0,1)?
22412 jbowman
@DouglasZare Por 'suave', eu queria afirmar que E [θ_t + 1 | θ_t] = θ_t (ou muito próximo) e VAR (θ_t + 1 | θ_t) é pequeno. θ não está pulando (caso contrário, nada poderia ser feito realmente).
repied2

Respostas:

2

Duvido que você possa criar um modelo com solução analítica, mas a inferência ainda pode ser tornada tratável usando as ferramentas certas, pois a estrutura de dependência do seu modelo é simples. Como pesquisador de aprendizado de máquina, eu preferiria usar o modelo a seguir, pois a inferência pode ser bastante eficiente usando a técnica de Propagação de Expectativas:

Deixe- ser o resultado de julgamento -ésimo. Vamos definir o parâmetro variável no tempoX(t)t

η(t+1)N(η(t),τ2) para .t0

Para vincular a , introduza variáveis ​​latentesη(t)X(t)

Y(t)N(η(t),β2) ,

e modelo a serX(t)

X(t)=1 se e caso contrário. Você pode realmente ignorar e marginalizá-los para apenas dizer , (com cdf de normal), mas a introdução de variáveis ​​latentes facilita a inferência. Além disso, observe que em sua parametrização original .Y(t)0X(t)=0Y(t)P[X(t)=1]=Φ(η(t)/β)Φθ(t)=η(t)/β

Se você estiver interessado em implementar o algoritmo de inferência, dê uma olhada neste artigo . Eles usam um modelo muito semelhante para que você possa adaptar facilmente o algoritmo. Para entender o EP, a página a seguir pode ser útil. Se você estiver interessado em seguir essa abordagem, me avise; Posso fornecer conselhos mais detalhados sobre como implementar o algoritmo de inferência.

d_ijk_stra
fonte
0

Para elaborar meu comentário, um modelo como p (t) = p exp (-t) é um modelo simples e permite a estimativa de p (t) estimando p usando a estimativa de probabilidade máxima. Mas será que a probabilidade realmente decai exponencialmente. Esse modelo estaria claramente errado se você observar períodos com alta frequência de sucesso do que em períodos anteriores e posteriores. O comportamento oscilatório pode ser modelado como p (t) = p | sint |. Ambos os modelos são muito tratáveis ​​e podem ser resolvidos com a máxima probabilidade, mas oferecem soluções muito diferentes.000

Michael R. Chernick
fonte
11
Parece que o OP está tentando modelar a probabilidade de sucesso no tempo , , como um processo markoviano, para não especificar alguma forma funcional para . tθ(t)θ(t)
Macro
11
@macro está certo, não sou capaz de fornecer uma forma paramétrica para , e isso não é desejável, pois essa função pode ser algo suave. Quero um modelo de Markov de ordem 1 semelhante a um modelo de Markov oculto ou a um filtro de Kalman, mas com uma variável oculta que aceite valores reais entre 0 e 1 e com uma probabilidade de Bernouilli. theta(t)
repied2
@pierre Ok, antes da edição, parecia que você estava pensando em estimar o tempo que variava e estava sugerindo o HMM como uma abordagem possível. Eu não estava recomendando uma forma funcional para a forma como ela muda com t. Eu estava argumentando que, sem informações adicionais, muitos modelos de vários tipos poderiam ser construídos e meus dois exemplos foram para mostrar que, sem informações adicionais, as escolhas de modelos poderiam dar respostas muito diferentes. Por que você insistiria em um HMM? Se alguém trabalhou e ajustar seus dados porque a rejeitam porque é "não-analítica.
Michael R. Chernick
Estou sugerindo que encontrar soluções convenientes não é o caminho para resolver problemas estatísticos práticos!
22912 Michael Jackson Chernick
11
@ MichaelChernick Por fim: gostaria de encontrar uma solução analítica, pois espero que este seja um problema conhecido e as pessoas tenham proposto uma solução analítica suficientemente flexível. Mas concordo com a nossa sugestão de que modelar a 'dinâmica real' é mais importante que o custo computacional em geral. Infelizmente isso é para big data e um algo lento será inútil :-(
repied2
0

Sua probabilidade muda com mas como Michael disse, você não sabe como. linearmente ou não? Parece um problema de seleção de modelo em que sua probabilidade :tp

p=Φ(g(t,θ)) pode depender de uma função altamente não linear . é apenas uma função delimitadora que garante entre 0 e 1 probabilidades.g(t,θ)Φ

Uma abordagem exploratória simples seria tentar vários probits para com diferentes não lineares e executar uma seleção do modelo base nos Critérios de Informação padrão.Φg()g()

Para responder sua pergunta reeditada :

Como você disse, o uso do probit implicaria apenas soluções numéricas, mas você pode usar uma função logística:

Função logística:P[θ(t+1)]=11+exp(θ(t)+ϵ)

Linearizado por:logP1P=θ(t)+ϵ

Não tenho certeza de como isso pode funcionar sob a abordagem de filtro Kalman, mas ainda acredito que uma especificação não linear como ou muitas outras sem um termo aleatório faça o trabalho. Como você pode ver, essa função é "smoth" no sentido de ser contínua e diferenciável. Infelizmente, adicionar geraria saltos da probabilidade resultante, o que é algo que você não deseja, então meu conselho seria remover .ϵ ϵθ(t+1)=at3+bt2+ct+dϵϵ

Probabilidade de logit:P[Coint+1=H|t]=11+exp(θ(t))

Você já possui randomnes no evento bernoulli (cadeia de Markov) e está adicionando uma fonte adicional devido a . Assim, seu problema pode ser resolvido como um Probit ou Logit estimado por Máxima verossimilhança com como variável explicativa. Suponho que você concorda que essa parcimônia é muito importante. A menos que seu objetivo principal seja aplicar um determinado método (HMM e Kalman Filter) e não fornecer a solução válida mais simples para o seu problema.tϵt

JDav
fonte
Se você usar um probit, uma extensão multivariada é simples, pois um probit multivariado pode ser estimado. As dependências seriam implícitas pela matriz de covariância da distribuição normal multivariada implícita.
JDav