Se eu tentar o wget em uma página da web, estou recebendo a página como html. É possível recuperar apenas o texto de um arquivo sem o html associado? (Isso é necessário para mim, pois algumas das páginas HTML contêm o programa c que está sendo baixado com tags html. Tenho que abri-lo no navegador e copiar manualmente o texto para criar um arquivo .c).
17
.c
. Não é difícil, mas depende da estrutura da página. Se você fornecer um link, pode haver alguém que o ajude com o código exato. Caso contrário,sed
ouperl
são seus amigos.Respostas:
wget
recuperará apenas o documento. Se o documento estiver em HTML, o que você deseja é o resultado da análise do documento.Você poderia, por exemplo, usar
lynx -dump -nolist
se tiver lince por perto.lynx
é um navegador da Web leve e simples, que possui o-dump
recurso, usado para gerar o resultado do processo de análise.-nolist
evita a lista de links no final, que aparecerá se a página tiver algum hiperlink.Conforme mencionado pelo @Thor, também
elinks
pode ser usado para isso, pois também possui uma-dump
opção (e deve-no-references
omitir a lista de links). Pode ser especialmente útil se você percorrer algum site usando -sigh- frames (MTFBWY).Além disso, lembre-se de que, a menos que a página seja realmente apenas código C com tags HTML, você precisará verificar o resultado, apenas para garantir que não exista nada além de código C.
fonte
Se você não possui essas outras ferramentas instaladas, apenas o wget, e a página não tem formatação, apenas texto simples e links, por exemplo, código-fonte ou uma lista de arquivos, você pode remover o HTML usando o sed assim:
Isso usa o wget para despejar a fonte da página em STDOUT e sed para remover quaisquer pares <> e qualquer coisa entre eles.
Você pode redirecionar a saída do comando sed para o arquivo que deseja criar usando>:
NB: Você pode achar que há espaço em branco extra no arquivo que não deseja (por exemplo, as linhas são recuadas algumas colunas)
Pode ser mais fácil usar o editor de texto para organizar o arquivo (ou um formatador de fonte enquanto você baixa o código-fonte C).
Se você precisar fazer a mesma coisa simples em todas as linhas do arquivo, poderá incluir um comando para fazer isso no comando sed (aqui, removendo um espaço à esquerda):
fonte
apenas para adicionar outra ferramenta. Eu prefiro
w3m
, que élynx
como um navegador de console. Você pode querer verificar o que já está disponível no seu sistema.fonte