Como determinar a complexidade de uma frase em inglês?

10

Estou trabalhando em um aplicativo para ajudar as pessoas a aprender inglês como segunda língua. Eu validei que as frases ajudam no aprendizado de um idioma, fornecendo contexto extra. Eu fiz isso realizando uma pequena pesquisa em uma sala de aula com 60 alunos.

Eu extraí mais de cem mil frases da Wikipedia para várias palavras em inglês (incluindo as palavras Barrons'800 e 1000 palavras mais comuns em inglês)

Dados completos estão disponíveis em https://buildmyvocab.in

Para manter a qualidade do conteúdo, filtrava frases com mais de 160 caracteres, pois poderiam ser difíceis de entender.

Como próximo passo, pretendo automatizar o processo de classificação deste conteúdo na ordem da facilidade de entendimento. Eu mesmo sou um falante de inglês não nativo. Quero saber quais recursos posso usar para separar frases fáceis de frases difíceis.

Além disso, você acha que isso é possível?

BuildMyVocab
fonte

Respostas:

8

Sim. Existem várias métricas, como o índice fogg. Textacy em python tem uma boa lista e implementações.

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}
GrimSqueaker
fonte
Você também pode observar entropia ou porcentagem de palavras exclusivas, mas as métricas acima são mais relevantes.
GrimSqueaker 28/04