O algoritmo de legibilidade Flesch-Kincaid depende das medidas de contagem de palavras e contagem de sílabas, nenhuma das quais é totalmente objetiva ou facilmente automatizável usando um computador. Por exemplo, "code-golf", com o hífen, conta como uma palavra ou duas? A palavra "milhão" é duas ou três sílabas? Nesta tarefa, você precisará aproximar, pois a contagem exata levará muito tempo, espaço e, o mais importante, código.
Sua tarefa é criar o menor programa possível (ou seja, uma função) em qualquer idioma que aceite uma passagem de leitura em inglês (presumida em frases completas) e calcular o índice Flesch Reading Ease com uma tolerância de oito pontos (para explicar variações na contagem de sílabas e contagem de palavras). É calculado da seguinte forma:
FRE = 206.835 - 1.015 * (words per sentence) - 84.6 * (syllables per word)
Seu programa deve estar alinhado às passagens de referência abaixo, cujos índices foram calculados usando a contagem manual:
I would not, could not, in the rain.
Not in the dark, not on a train.
Not in a car, not in a tree.
I do not like them, Sam, you see.
Not in a house, not in a box.
Not with a mouse, not with a fox.
I will not eat them here or there.
I do not like them anywhere!
Índice: 111.38 (64 sílabas em 62 palavras em 8 frases)
It was a bright cold day in April, and the clocks were striking thirteen.
Winston Smith, his chin nuzzled into his breast in an effort to escape
the vile wind, slipped quickly through the glass doors of Victory Mansions,
though not quickly enough to prevent a swirl of gritty dust from entering
along with him.
Índice: 65,09 (74 sílabas em 55 palavras em 2 frases)
When in the Course of human events, it becomes necessary for one people to
dissolve the political bands which have connected them with another, and to
assume among the powers of the earth, the separate and equal station to
which the Laws of Nature and of Nature's God entitle them, a decent respect
to the opinions of mankind requires that they should declare the causes
which impel them to the separation.
Índice: 3,70 (110 sílabas em 71 palavras em 1 frase)
Se você tiver outras passagens para as quais tenha contado manualmente as sílabas e palavras e calculado o índice, poderá mostrá-las como verificação.
fonte
Respostas:
Perl 120 bytes
E / S de amostra:
A contagem de sílabas é feita assumindo que cada agrupamento de vogais é uma única sílaba, exceto as vogais isoladas no final de uma palavra, que são contadas apenas dois terços do tempo; uma heurística que parece ser bastante precisa.
fonte
K & R C - 188
196199229caracteresCom a especificação alterada para especificar uma função, posso obter grande parte da sobrecarga c da contagem. Também mudando para usar a contagem de sílabas dos Strigoides, que é melhor do que minha fórmula, ajustada e estendida para lidar com a contagem excessiva de palavras.
Depois que encontrei uma maneira mais curta de fazer a detecção de vogais, que infelizmente era baseada
stdchr
, tive o incentivo de extrair um pouco mais da abominação que eu estava usando para não precisar ser chata.A lógica aqui é uma máquina de estado simples. Conta frases por períodos apenas, palavras por sequências de caracteres alfabéticos e sílabas como sequências de vogais (incluindo y).
Eu tive que separar um pouco as constantes para que saíssem com os números certos, mas peguei emprestado o truque dos Strigoides de apenas subestimar as sílabas por uma fração fixa.
Sem golfe , com comentários e algumas ferramentas de depuração:
Saída: (usando o andaime da versão longa, mas a função de golfe).
Deficiências:
!
ou a?
.there
é contada como duas e muitas palavras terminadas eme
serão contadas demais), então apliquei um fator constante de correção de 96,9%.[
e{
, o que claramente não está certo.Coisas para olhar:
Estou (momentaneamente) à frente da solução python aqui, mesmo se estiver rastreando o perl.
Veja a coisa horrível que fiz para detectar vogais. Faz algum sentido se você escrever as representações ASCII em binário e ler o comentário na versão longa.
fonte
Python,
202194188184171 171167 caracteresPrimeiro, obtenha o número total de palavras dividindo-se em espaços e novas linhas:
Então, a fórmula. As contagens de sentenças e sílabas são usadas apenas uma vez e, portanto, são incorporadas nessa expressão.
As frases são simplesmente a entrada dividida
.
, com as novas linhas filtradas:As sílabas consistem na divisão da entrada ao longo de não vogais, com espaços removidos. Isso parece superestimar consistentemente o número de sílabas, por isso precisamos ajustá-lo (cerca de 0,98 parece fazê-lo):
202 -> 194: em
len(x)-2
vez delen(x[1:-1])
. Removidos suportes desnecessários. Regex de sílaba diferencia maiúsculas de minúsculas194 -> 188: O arquivo foi salvo anteriormente como DOS em vez de formato de arquivo unix, causando
wc -c
com que as novas linhas sejam contadas como dois caracteres. Ops.188 -> 184: Livre-se dessas coisas desagradáveis
x for x in ... if x!=...
armazenando o resultado intermediário e subtraindox.count(...)
184 -> 171: Remova a entrada / saída e converta para a função
171 -> 167: insira
len(x)-x.count(...)
s na fórmulafonte
Python 380 caracteres
Essa é uma solução bastante longa, mas funciona bem o suficiente, pelo menos dos três casos de teste, desde que funcione.
Código de teste
Resultado -
Eu usei o contador de sílabas daqui - Contando sílabas
Uma versão mais legível está disponível aqui
fonte
if len(w)>2 and w[-1]=='e'and w[-2]not in v and w[-3]in v:c-= 1
Mente simples, mas uma boa aproximação. Eu gosto disso.Javascript, 191 bytes
O primeiro caso de teste fornece 112,9 (a resposta correta é 111,4, 1,5 pontos a menos)
O segundo caso de teste fornece 67,4 (a resposta correta é 65,1, menos 2,3 pontos)
O terceiro caso de teste fornece 1,7 (a resposta correta é 3,7 e 2,0 pontos)
fonte