Essa expressão regular representa uma cadeia de Markov em estados correspondentes a um estado inicial e a cada uma das letras. É feita uma transição de para , de para , ... e da penúltima letra para a última, sempre com probabilidade . Caso contrário, o estado permanece o mesmo. O estado final é um estado absorvente: quando atingido, todas as letras são observadas em sequência.s s um um b pm+1ssaabp
Em termos dos estados , a matriz de transição é(s,a,b,…)
Pm=⎛⎝⎜⎜⎜⎜⎜⎜⎜1−p0⋮00p1−p0⋯00p⋱0⋯⋯⋯p1−p000⋮p1⎞⎠⎟⎟⎟⎟⎟⎟⎟
Técnicas algébricas lineares padrão (a forma normal de da Jordânia e sua matriz de mudança de base são simples e esparsas, tornando isso bastante fácil) estabelecem que para a última entrada na primeira linha do poder da matriz é n≥m P n mPmn≥mPnm
Pnm(1,m+1)=pm∑i=0n−m(m−1+im−1)(1−p)i.
Essa é a chance de atingir o estado de absorção a partir do estado inicial após transições: responde à pergunta. Se desejar, ele pode ser expresso em "forma fechada" em termos de uma função Hipergeométrica comon
Pnm(1,m+1)=1−pm(nm−1)(1−p)−m+n+12F1(1,n+1;n+2−m;1−p).
A soma tem uma agradável interpretação combinatória. Seja a posição em que a última letra ocorre pela primeira vez. É precedido por uma sequência (possivelmente vazia) de não s, cada uma com uma chance de de ocorrer; então um com uma chance de ocorrer; então uma sequência (possivelmente não vazia) de não- s, etc. Há nos quais colocar a primeira aparição de um , depois a primeira aparição de a depois disso, etc. Assim - incluindo a primeira aparição da última letra na posição - a probabilidade éa 1 - p a p b ( m - 1 + im+ia1−papb abm+i ( m-1+i(m−1+im−1)abm+im+0m+(n-m)(m−1+im−1)pm(1−p)k . Isso fornece um termo da soma. Assim, a soma divide as seqüências de acordo com o local onde a última letra ocorre pela primeira vez, que pode estar em qualquer lugar da posição a essas são obviamente desarticuladas - e acrescenta suas probabilidades.m+0m+(n−m)
Como um exemplo simples para esclarecer a interpretação, suponha e considere . Existem quatro sequências de três símbolos, cada um de probabilidade , e três outras sequências de probabilidade , na qual os símbolos e aparecem na seguinte ordem:n = 3 p 3 p 2 ( 1 - 2 p ) um bm=2n=3p3p2(1−2p)ab
aab,aba,abb,bab;ab$,a$b,$ab.
A chance, portanto, é
4p3+3p2(1−2p)=3p2−2p3=p2(3−2p)=p2(1+2(1−p))=P32(1,3).
A interpretação combinatória é que a expressão regular ^ab
(com na posição ) ocorre com probabilidade ; e , com na posição , ocorre de duas maneiras como e , cada uma com probabilidade .2 p 2 b 3 p 2 ( 1 - p )b2p2^[^a]*a[^b]*b
b3^a[^b]b
^[^a]ab
p2(1−p)