Extrair arquivos de texto html para arquivo de texto

0

Eu tenho uma pasta com muitos arquivos html, gostaria de extrair apenas o texto contido no corpo deste html para um arquivo txt, como posso fazer isso?

Meds
fonte

Respostas:

1

Você pode iterar sobre cada arquivo no diretório e usar um navegador de linha de comando, como lynx ou w3m, para renderizar o HTML em texto sem formatação e salvá-lo em um arquivo de texto.

Exemplo do Lynx:

lynx -dump in.html > out.txt

exemplo w3m:

w3m -dump in.html > out.txt
rbialon
fonte