PNL: Quais são alguns pacotes populares para tokenização de várias palavras?

Pretendo tokenizar vários textos de descrição de cargo. Eu tentei a tokenização padrão usando espaço em branco como delimitador. No entanto, notei que existem algumas expressões de várias palavras divididas por espaços em branco, que podem causar problemas de precisão no processamento subsequente....