Classificar linhas para formar uma lista de dicionário de palavras exclusiva

1

Muitas vezes, criamos dicionários em fóruns online para palavras típicas usadas em um fórum, o usuário responde no seguinte formato em um fórum phpbb

termo: definição

portanto, o trabalho é coletar todas essas entradas exclusivas, eliminando o ruído, normalmente copiamos a página inteira e a classificamos para remover o ruído:

Registrado: sexta-feira, 24 de janeiro de 2014 21:49
Registrado: sexta-feira, 5 de junho de 2009 17:57
Registrado: segunda-feira 07 de julho de 2014 7:20
Registrado: segunda-feira 07 de julho de 2014 7:20
Registrado em: Seg Nov 25, 2013 6:46 am

Mensagens: 49
Mensagens: 49
Mensagens: 49
Mensagens: 49
Mensagens: 5
Mensagens: 8152
Progessium: Um peptídeo leve necoliye


Então, como uma linha de comando ou um script python classifica o conteúdo acima, removendo o ruído e obtendo apenas entradas em ordem alfabética, como:

Progessium: Um peptídeo leve necoliye

suuser
fonte
nós não temos acesso de administrador para isso, só quero raspar o html
suuser
Use o Adobe Acrobat Pro, como variante)
STTR 12/04