Quantas palavras de comprimento

EDITADO PARA ADICIONAR : Esta questão agora está essencialmente respondida; consulte esta entrada do blog para obter mais detalhes. Obrigado a todos que postaram comentários e respostas aqui.

PERGUNTA ORIGINAL

Esta é uma versão esperançosamente mais inteligente e bem informada de uma pergunta que fiz no MathOverflow. Quando fiz essa pergunta, eu nem sabia o nome da área da matemática em que estava o meu problema. Agora, tenho certeza de que está na Combinatória Algorítmica de Palavras Parciais. (Livro recente sobre o assunto aqui .)

Quero fazer uma lista de palavras em $l$ letras. Cada palavra tem comprimento exatamente $k$ . O negócio é, se $a \lozenge ^j b$ está na lista, onde $\lozenge$ é um símbolo wildcard /-cuidado não tem, então, $a \lozenge ^j b$ pode nunca aparecem novamente na lista. (O mesmo vale se $a=b$ , ou se $j=0$ e, portanto, a subpalavra proibida é $ab$ .)

Exemplo onde $k=4$ e $l=5$ :

$abcd$
$bdce$
$dcba$ <- proibida por causa $dc$ apareceu na linha acima
$aeed$ <- proibida porque $a \lozenge \lozenge d$ apareceu na primeira linha

A literatura sobre "palavras parciais evitáveis" que encontrei foi infinita - eventualmente algum padrão de palavras é inevitável se o tamanho da palavra for grande o suficiente. Eu gostaria de encontrar versões financeiras de tais teoremas. Então, pergunta:

Dada uma palavra parcial da forma em um alfabeto de letras, quantas palavras de comprimento evitam e podem ser explicitamente produzidas em tempo polinomial? $a \lozenge^j b$ $l$ $k$

Não espero que a pergunta acima seja difícil e, a menos que exista uma sutileza, posso calcular ela mesma. A verdadeira razão pela qual estou postando neste site é porque preciso saber muito mais sobre as propriedades dessas listas de palavras para o meu aplicativo, por isso espero que alguém possa responder à pergunta a seguir:

Isso foi estudado em geral? Quais são alguns artigos que consideram, não apenas se uma palavra parcial é inevitável, mas "quanto tempo leva" antes de se tornar inevitável?

Obrigado.

co.combinatorics Aaron Sterling
fonte

(1) Não consigo entender a correspondência entre sua primeira pergunta e o exemplo exposto anteriormente. Qual é a entrada no seu exemplo? (2) Na sua primeira pergunta, você está usando k para dois propósitos diferentes?

Tsuyoshi Ito

Em relação a (2), sim, cometi um erro, agora editado, obrigado.

Aaron Sterling

Em relação a (1), gostaria de saber "quanto espaço me resta" quando uma palavra parcial aparecer. Mas sim, a verdadeira questão é como produzir listas como a que aparece no exemplo (sem as palavras parciais proibidas). Assim, a entrada seriam os valores de

, e um número desejado de palavras para produzir em uma lista, todas as quais tinham o "evitar anteriormente aparecem palavras parciais propriedade."

k

$k$

l

$l$

Aaron Sterling

@ Aaron, não sei qual é a sua aplicação final, mas as sequências de Davenport-Schinzel (e generalizações) perguntam sobre o comprimento máximo de uma string que não contém um padrão de repetição específico. É uma noção relacionada.

Suresh Venkat

Seth Pettie também estudou algumas generalizações muito bacanas para submatrizes proibidas.

Suresh Venkat

Respostas:

Aqui é um caso especial: o número de palavras binárias de comprimento de tal modo que não há dois uns aparecem consecutivamente é , em que é o número de Fibonacci (começando com ). A prova é através da representação Zeckendorf . $k$ $F(k+3)$ $F(n)$ $n^{th}$ $F(1)=1, F(2)=1$

EDIT: Podemos estender esse caso especial inicial para o caso especial um pouco maior de . Considere cadeias de comprimento sobre um alfabeto de tamanho , para que a letra não apareça duas vezes consecutivas. Seja o número de tais strings (que chamaremos de "válidos"). Afirmamos que: $a\lozenge^0a$ $k$ $l+1$ $a$ $f(k)$

f (k) = l * f (k - 1) + l * f (k - 2)

$f(k) = l*f(k-1) + l*f(k-2)$

O intuição é que podemos construir uma cadeia válida de comprimento

, alternativamente: a) adjacente qualquer das

letras que não são

a uma cadeia válida de comprimento

, ou b) ao lado da letra

e, em seguida, qualquer outra letra, exceto

a uma sequência válida de comprimento

f (0) = 1, f (1) = l + 1

$f(0) = 1, f(1) = l+1$

k

$k$

l

$l$

a

$a$

k - 1

$k-1$

a

$a$

a

$a$

k - 2

$k-2$

Você pode verificar se o seguinte é um formulário fechado para a recorrência acima: onde entendemos quando .

f (k) = \sum_{i = 0}^{k} (\binom{k + 1 - i}{i}) l^{k - i}

$f(k) = \sum_{i=0}^{k} {{k+1-i}\choose{i}} l^{k-i}$

(\binom{n}{i}) = 0

${{n}\choose{i}} = 0$

i > n

$i>n$

EDIÇÃO # 2: Vamos eliminar mais um caso - a . Chamaremos as strings sobre um alfabeto de elemento que não contém a subcadeia , "valid" e deixaremos denotar o conjunto de strings válidas de comprimento . Além disso, vamos definir ser o subconjunto de consistindo de cordas começando com e a ser aqueles que não comece por . Finalmente, deixe,,. $\lozenge^0 b, a \neq b$ $l$ $ab$ $S_k$ $k$ $T_k$ $S_k$ $b$ $U_k$ $b$ $f(k) = |S_k|$ $g(k) = |T_k|$ $h(k) = |U_k|$

Observa-se que e . Em seguida, inferimos as seguintes recorrências: O primeiro vem do fato de que adicionar ao início de qualquer elemento de produz um elemento de . O segundo vem da observação de que podemos construir um elemento de adicionando qualquer caractere, mas à frente de qualquer elemento de ou adicionando qualquer caractere, mas ou à frente de qualquer elemento em . $g(0)=0, h(0)=1, f(0)=1$ $g(1)=1, h(1)=l-1, f(1)=l$

\begin{array}{rcl} g (k + 1) & = & f (k) \\ h (k + 1) & = & (l - 1) * h (k) + (l - 2) * g (k) \end{array}

$\begin{eqnarray} g(k+1) &=& f(k) \\ h(k+1) &=&(l-1)*h(k) + (l-2)*g(k) \end{eqnarray}$

b

$b$

S_{k}

$S_k$

T_{k + 1}

$T_{k+1}$

U_{k + 1}

$U_{k+1}$

b

$b$

U_{k}

$U_{k}$

a

$a$

b

$b$

T_{k}

$T_k$

Em seguida, reorganizamos as equações de recorrência para obter:

\begin{array}{rcl} f (k + 1) & = & g (k + 1) + h (k + 1) \\ = & f (k) + (l - 1) * h (k) + (l - 2) * g (k) \\ = & f (k) + (l - 1) * f (k) - g (k) \\ = & l * f (k) - f (k - 1) \end{array}

$\begin{eqnarray} f(k+1) &=& g(k+1) + h(k+1) \\ &=& f(k) + (l-1)*h(k) + (l-2)*g(k) \\ &=& f(k) + (l-1)*f(k) - g(k) \\ &=& l*f(k) - f(k-1) \end{eqnarray}$

Podemos obter uma solução de forma fechada bastante opaca para essa recorrência, mexendo um pouco com a geração de coisas funcionais ou, se tivermos preguiça, indo direto para o Wolfram Alpha . No entanto, com um pouco de pesquisa e pesquisa no OEIS , descobrimos que realmente temos: onde é o polinômio Chebyshev do segundo tipo (!) .

f (k) = U_{k} (l / 2)

$f(k) = U_k(l/2)$

U_{k}

$U_k$

k^{t h}

$k^{th}$

mhum
fonte

Isso é muito interessante, obrigado.

Aaron Sterling

Uma abordagem completamente diferente para a primeira pergunta reutiliza as respostas da pergunta recente sobre a geração de palavras em uma linguagem regular : basta aplicar esses algoritmos para o comprimento na linguagem regular , onde é o alfabeto. $k$ $\Sigma^\ast a\Sigma^j b\Sigma^\ast$ $\Sigma$

Sylvain
fonte

Obrigado. Fiquei me perguntando se poderia haver uma conexão, e sua resposta aqui me deu o impulso necessário para olhar para os documentos mencionados lá, e um deles definitivamente resolve um pedaço de um dos problemas que estou considerando.

Aaron Sterling

Atualizado: esta resposta está incorreta :

assumindo que é fixo, podemos contar o número de maneiras que um padrão pode ser correspondido: o primeiro que símbolo pode ser correspondido em alguma posição , e temos possibilidades antes desse ponto, entre e , e para o restante da corda, assim, um total de casos. Conforme observado por Tsuyoshi Ito nos comentários, essa contagem não é o número de palavras diferentes correspondentes $j$ $a\lozenge^j b$ $a$ $1\leq i\leq k-j-1$ $l^{i-1}$ $l^j$ $a$ $b$ $l^{k-j-i-1}$

\sum_{i = 1}^{k - j - 1} l^{i - 1} \cdot l^{j} \cdot l^{k - j - i - 1} = (k - j - 1) l^{k - 2}

$\sum_{i=1}^{k-j-1}l^{i-1}\cdot l^{j}\cdot l^{k-j-i-1}=(k-j-1)l^{k-2}$

a ◊^{j} b

$a\lozenge^j b$ uma vez que uma única palavra poderia corresponder ao mesmo padrão de maneiras diferentes. Por exemplo, é correspondido três vezes em , duas vezes em e duas vezes em . Podemos tentar contar o número de maneiras de combinar padrões várias vezes e exibir uma expressão de "inclusão-exclusão", mas a maneira como o padrão pode se sobrepor torna isso muito longo.

a a

$aa$

a a a a

$aaaa$

a b

$ab$

a b a b

$abab$

a ◊ b

$a\lozenge b$

a a b b

$aabb$

Para a primeira pergunta, entendendo que não é fixo, ou seja, queremos evitar a incorporação da palavra : $j$ $ab$

quer primeiro símbolo nunca aparece, o que representa palavras possíveis, $a$ $(l-1)^k$
ou aparece em primeiro lugar em alguma posição , então não pode utilizar no restante da palavra: existem escolhas para o factor de até , e opções para o restante, fornecendo um total de palavras possíveis. Se é irrelevante. $a$ $1\leq i\leq k$ $b$ $(l-1)^{i-1}$ $a$ $(l-1)^{k-i}$ $\sum_{i=1}^k(l-1)^{i-1}\cdot(l-1)^{k-i}=k(l-1)^{k-1}$ $a=b$

Para a segunda pergunta, não tenho muito o que sugerir; existe uma relação com a incorporação de palavras, mas os resultados que conheço sobre más sequências para o lema de Higman não se aplicam imediatamente.

Sylvain
fonte

Muito obrigado, Sylvain, embora eu não ache isso certo. Podemos usar posteriormente na palavra se aparecer. Nós apenas não pode usar se houver exatamente letras em entre e , se apareceu mais cedo. Talvez eu esteja entendendo mal o seu argumento.

b

$b$

a

$a$

b

$b$

j

$j$

a

$a$

b

$b$

a ◊^{j} b

$a \lozenge ^j b$

Aaron Sterling

Desculpe, eu não tinha certeza se foi corrigido ou não. Também editei a resposta com fixo .

j

$j$

j

$j$

19411 Sylvain

Eu não acho que o caso j fixo está correto. Por exemplo, se k = 4 ej = 1, a palavra aabb é subtraída duas vezes. Eu não li o caso não-fixo-j.

Tsuyoshi Ito

@ Tsuyoshi Ito: você está certo, não há correspondência única nesse caso.

21411 Sylvain

Por favor, marque uma resposta incorreta como tal.

Tsuyoshi Ito