Eu tenho um arquivo html, que contém muitos / lt; | ^, alguns textos ao lado de cabeçalhos de lixo, palavras, etc. Eu quero extrair alguns textos entre um conjunto de letras, como "nbsp" e um pipe "|". Eu perco informações se eu usar "delims = nbsp", já que os delims as consideram "n", "b", "s" e "p". Como devo abordar o problema e como extrair vários textos?
Exemplo de texto:
garbage nbsp; SOME_TEXT_1 | garbage
garbage nbsp; SOME_TEXT_2 | garbage
garbage nbsp; SOME_TEXT_3 | garbage