Separando palavras com DFAs aleatórios

15

Um dos problemas em aberto interessantes sobre os DFAs listados em Existe algum problema em aberto sobre os DFAs? é o tamanho de um DFA necessário para separar duas cadeias de comprimento n . Estou curioso para saber se existem resultados sobre a capacidade de um DFA aleatório separar duas seqüências de caracteres (não aleatórias).

Claramente, um DFA aleatório com muitos estados separa seqüências com alta probabilidade. Especificamente, se , um DFA aleatório com estados provavelmente nunca revisitará o mesmo estado, uma vez que atinja o primeiro lugar onde e diferem e, portanto, separa e .u,vΣnO(n)uvuv

Podemos fazer melhor? Idealmente, qual é o menor st que um DFA aleatório com afirma separa seqüências de comprimento com probabilidade positiva (ou talvez probabilidade )? Uma breve pesquisa não encontrou muitos resultados nas propriedades de DFAs aleatórios; tudo o que pude encontrar foi http://arxiv.org/abs/1311.6830 .f ( n ) n 1 / 2f(n)f(n)n1/2

Geoffrey Irving
fonte
A probabilidade positiva não é uma condição particularmente útil aqui, dado que é apenas uma reafirmação do problema em aberto. Alta probabilidade ainda pode ser interessante.
Geoffrey Irving
1
O que significa "separa"? Aceita um e rejeita o outro? Se sim, é óbvio que estados são suficientes? O(n)
usul 14/05
Sim, separa significa aceita exatamente um. E você está certo: o argumento de separação mais trivial, na verdade, requer estados (o que escrevi acima está errado), embora eu ficaria surpreso se muito menos não bastasse. O(n2)
Geoffrey Irving
1
Você não esperaria que os limites dependessem de quanto as palavras diferem? Parece que palavras que diferem em uma única letra seriam mais difíceis de discriminar aleatoriamente, porque você precisa discriminar nessa transição e palavras muito diferentes seriam mais fáceis. [Para generalizar, você pode esquecer o prefixo comum mais longo (você alcança um estado aleatório a partir dele); depois, letras diferentes o enviarão para o mesmo estado ou para estados diferentes; em seguida, se os estados são diferentes você precisa olhar para a proba de resyncing, e ficar em sincronia (começa dependendo novamente nas palavras) ...]
a3nm
Sim, como o problema aberto, estou interessado nas palavras mais difíceis possíveis de discriminar. Palavras que diferem em apenas alguns lugares já podem ser separadas por estados , portanto, é improvável que sejam o caso difícil. O(logn)
Geoffrey Irving

Respostas:

2

[Editar: esta resposta não funciona, ver comentários.]

Esta é apenas uma ideia informal e não sei se ajuda, mas é muito tempo para ser dado como um comentário. Além disso, eu não estou familiarizado com DFAs aleatórios, então talvez eu tenha uma intuição errada de como você deve raciocinar sobre probabilidades neles, mas espero que isso não seja totalmente inútil.

Suponho que seus limites dependam de quanto e v diferem; se não o fizerem, parece-me claro que, na pior das hipóteses, as cordas diferem apenas pelo primeiro caractere (cordas que diferem em um conjunto X de posições têm mais chances de serem separadas do que cordas que diferem em um conjunto Y X de posições , Eu diria, e colocar a diferença o mais cedo possível oferece a oportunidade de ressincronizar).uvXYX

Também examinarei a probabilidade de as palavras se distinguirem, ou seja, atingirem estados diferentes. Acho que você precisaria se adaptar para ser aceito ou rejeitado, com base em como seus DFAs aleatórios alocam estados finais. Se cada estado tem uma probabilidade 1/2 de ser final, então, quando as seqüências terminam no mesmo estado, elas não são distinguidas e, quando terminam em estados diferentes, têm probabilidade 1/2 de ser distinguida.

Agora, considerarei a palavra obtida de u e v da seguinte forma: w i = 1 se u i = v i e w i = 0 caso contrário. Eu acho que está claro que w é a única coisa interessante a considerar sobre u e v .wuvwi=1ui=viwi=0wuv

Agora, definir a probabilidade de que estamos no mesmo estado depois de ler prefixos de comprimento i de u e v , e q ( i ) = 1 - p ( i ) a probabilidade de que não somos.p(i)iuvq(i)=1p(i)

Penso que temos quando w i + 1 é 1 . Intuitivamente, estamos no mesmo estado depois de ler as letras i + 1 , quando estávamos no mesmo estado depois de ler i , ou quando estávamos em dois estados (aleatórios) diferentes, desenhamos duas transições para estados aleatórios, e elas aconteceram com seja o mesmo. Da mesma forma, temos p ( i + 1 ) = 1p(i+1)=p(i)+q(i)/nwi+11i+1i quando w i + 1 é 0 : você está desenhando dois estados aleatórios, não importa de onde você começou.p(i+1)=1/nwi+10

A partir disso, acho que você pode calcular a probabilidade de estar no mesmo estado depois de ler e v .uv

a3nm
fonte
Infelizmente, está longe de ser óbvio que é a única propriedade interessante de u e v . A maneira mais fácil de ver isso é que existe uma probabilidade trivialmente nula de distinguir qualquer w não trivial de 0 n ; de fato, apenas dois estados são suficientes, independentemente de n . No entanto, tal como discutido em arxiv.org/pdf/1103.4513.pdf , existem palavras u , v de comprimento n r não o ( log n ) estado DFA pode distingui-los. Isso contradiz suas fórmulas para p ( i )wuvw0nnu,vno(logn)p(i).
Geoffrey Irving
1
Para esclarecer, suas fórmulas estariam corretas se as transições do DFA fossem uma função aleatória do índice de cadeias; como são independentes do índice, as probabilidades são correlacionadas de uma maneira bastante complicada.
Geoffrey Irving
Receio não ter seu contra-exemplo. Existe um prba, com dois estados, de distinguir 0 n e w 0 n , OK; e talvez haja palavras de tamanho n que não possam ser distinguidas com estados o ( log n ) . Mas como isso contradiz minha afirmação de que w é a única coisa importante ou minhas fórmulas para p ( i )>00nw0nno(logn)wp(i)? Quanto às correlações, vejo que pode haver um problema do tipo que você está mencionando, mas ainda não entendo por que exatamente falha. Se você passar duas vezes pelo mesmo estado, há uma correlação, mas há uma razão para pensar que isso influenciaria em certa direção, em média?
a3nm
Se , u e v são distinguidos com probabilidade positiva. No entanto, para n e números suficientemente grandes de estados, sabemos que p ( n ) = 1 para alguns u e v . Como suas fórmulas implicam que, se p ( i ) < 1, então p ( i + 1 ) = p ( i ) + ( 1 - pp(n)<1uvnp(n)=1uvp(i)<1 , sua fórmula não está capturando o fato de que determinados u e v são impossíveis de distinguir. p(i+1)=p(i)+(1p(i))/n=p(i)(11/n)+1/n<1uv
Geoffrey Irving
q(i)