Pensar em probabilidade sempre me faz perceber o quão ruim sou em contar ...
Considere uma sequência de letras base , cada um com a mesma probabilidade de aparecer. Qual é a probabilidade de que essa sequência contenha uma sequência específica de pares de bases de interesse de comprimento ?A ,r ≤ n
Existem sequências diferentes (igualmente prováveis) possíveis. Comece com a sequência de interesse no início da sequência completa; seqüências como essa são possíveis. Podemos iniciar nossa sequência de interesse em locais diferentes. Portanto, minha resposta é .4 n - r n + 1 - r ( n + 1 - r ) / 4 r
Essa probabilidade está aumentando em , o que faz sentido para mim. Mas essa probabilidade excede 1 quando . Mas isso não pode ser. A probabilidade deve se aproximar de 1 no limite (me parece), mas não exceder.n > 4 r + r - 1
Suponho que estou contando algo duas vezes. o que estou perdendo? Obrigado.
(FYI, não lição de casa, apenas um exemplo de brinquedo em preparação para os exames. Uma pergunta feita pelo meu amigo biólogo molecular.)
fonte
Respostas:
Vamos contemplar uma versão pequena desse problema com . Qual é a chance de uma sequência de cinco letras conter os destino ? Isso é fácil: de todas as seqüências começam com essa sequência, outros terminam com ela e nenhuma sequência começa e termina com essa sequência. Portanto, a chance é .… A C G T … 4 - 4 4 - 4 2 × 4 - 4n = 5 ... A CG T… 4- 4 4- 4 2 × 4- 4
Por outro lado, qual é a chance de ? Mais uma vez, das seqüências começam com essa sequência, a mesma proporção termina com essa sequência e de todas as sequências fazem as duas coisas . Portanto, pelo Princípio da Inclusão-Exclusão, a resposta é .4 - 4 4 - 5 2 × 4 - 4 - 4 - 5… A A A A … 4- 4 4- 5 2 × 4- 4- 4- 5
Em geral, a resposta depende da estrutura da substring. Para ser mais específico, ao digitalizar uma string (da esquerda para a direita, digamos) em busca do , você ignora todos os caracteres até ver o inicial . Depois disso, existem três possibilidades: o próximo caractere corresponde a , o próximo não corresponde a mas não é (portanto, você está de volta no estado de espera por ) ou o próximo não combina, mas é um , colocando você no estado just-saw-an- . Por outro lado, considere uma pesquisa por . Suponha que você tenha visto o prefixoA C C A A A A A C T A C G A C T A C G C A A C T … A C T AA CG T UMA C C UMA UMA UMA UMA A CTA CG A CTA C . O próximo personagem vai corresponder se for . Quando não é compatível, (i) um coloca você no estado inicial de espera por um , (ii) um faz você ficar de olho em um e (iii) um significa que você já viu e você já está no meio de uma partida (e está procurando o segundo ). A "estrutura" relevante consiste evidentemente em padrões de substrings no alvo que correspondem ao prefixo do alvo. É por isso que as chances dependem da sequência de destino.G C UMA UMA C T ... A CT UMA
Os diagramas da FSA que defendo em uma resposta na Time tomadas para atingir um padrão de cara e coroa em uma série de lançamentos de moedas podem ajudar a entender esse fenômeno.
fonte
Uma aproximação bruta seria . Você assume a probabilidade de que sua sequência não ocorra em um local específico, coloca-o no poder do número de locais (assumindo independência falsamente), que é não , e essa é uma aproximação de sua ocorrência. então você precisa subtrair isso de . n - r + 1 n - r 11 - ( 1 - 1 / 4r)n - r + 1 n - r + 1 n - r 1 1
Um cálculo preciso dependerá do padrão preciso que você está procurando. É mais provável que não ocorra que .A A A A A A TCG T
fonte
Você está contando duas vezes as seqüências que incluem várias vezes a subsequência de destino, por exemplo, tanto na posição A quanto na posição B! = A. É por isso que sua probabilidade de erro pode exceder 1
fonte
É possível obter a probabilidade exata de uma subsequência específica usando uma representação em cadeia de Markov do problema. As especificidades de como construir a cadeia dependem da subsequência de interesse específica, mas darei alguns exemplos de como fazer isso.
Probabilidade exata via cadeia de Markov: considere uma sequência discreta de resultados deA,T,C,G que os resultados na sequência sejam permutáveis e suponha que estamos interessados em alguma substring de comprimento k . Para qualquer dado valor de n , deixar W ser o caso em que a subsequência de interesse ocorre, e deixá- Ha ser o caso em que os últimos a resultados são o primeiro a<k caracteres na subsequência de interesse (mas não mais do que isto) . Usamos esses eventos para fornecer a seguinte partição de k+1 possíveis estados de interesse:
R
fonte