Obter texto de várias páginas da Web não funciona se um URL estiver inativo

0

Eu tenho a criação de um fluxo de trabalho simples no Automator que irá extrair texto de uma lista de URLs e salvá-los em um arquivo de texto.

As ações são:

Obtenha o texto especificado
Obter texto da página da web
Novo arquivo de texto

Sempre que há um problema com uma das URLs, o Automator gera um erro e pára de funcionar - é possível ignorar a URL do problema e continuar?

automator henry
fonte

1

A razão é que o "Get Specified Text" não permite retornos (se você estiver colocando mais de uma linha de texto).

Para que eu consertasse esse problema (o meu era parecido), encontrei um pacote de ações do texto do automator on line e comprei (muito barato). Você pode encontrá-lo aqui:

http://www.automatedworkflows.com

Philippe Dube
fonte

Obrigado, acabei de comprar o pacote de ações de texto .... mas estou tendo o mesmo problema. Eu tenho essa configuração: O problema é quando qualquer URL fornecido tem um tempo limite. Existe uma maneira de definir uma condição em que ele tenta recuperar o texto, mas, se não conseguir, passa para o próximo URL.

Henry

0

Você poderia usar curl ou wget em vez disso?

for u in $(cat urls.txt); do curl -L "$u"; done > output.txt
brew install wget
wget -i urls.txt -U mozilla -O output.txt

Lri
fonte

Me desculpe, eu não tenho absolutamente nenhuma idéia do que você está falando ... mesmo Automator é uma luta para eu entender. Você pode aconselhar o que eu faria com o código acima?

Henry

OP incluiu um comando terminal em sua resposta. Já que é um pouco acima de sua cabeça, recomendo seguir a resposta de Philippe.

Zach Latta

Obter texto de várias páginas da Web não funciona se um URL estiver inativo

Respostas: