Como eu baixaria uma lista de arquivos de um servidor de arquivos como este http://www.apache.org/dist/httpd/binaries/ ?
Suponho que eu poderia usar o wget, mas ele tenta obter todos os links e o arquivo html também. Existe uma ferramenta melhor para fazer isso?
download
apache-http-server
wget
BinaryMisfit
fonte
fonte
Respostas:
Você pode especificar quais extensões de arquivo
wget
serão baixadas ao rastrear páginas:Isso irá executar uma recursiva arquivos de busca e download somente com as
.zip
,.rpm
e.tar.gz
extensões.fonte
supondo que você realmente queira apenas uma lista dos arquivos no servidor sem buscá-los (ainda):
enquanto 'filter.awk' se parece com isso
é possível filtrar algumas entradas como
fonte
Ref: http://blog.incognitech.in/download-files-from-apache-server-listing-directory/
Você pode usar o seguinte comando:
Explicação com cada opção
wget
: Comando simples para fazer solicitação de CURL e baixar arquivos remotos em nossa máquina local.--execute="robots = off"
: Isso ignorará o arquivo robots.txt durante o rastreamento pelas páginas. É útil se você não estiver obtendo todos os arquivos.--mirror
: Esta opção basicamente reflete a estrutura de diretórios para o URL especificado. É um atalho para o-N -r -l inf --no-remove-listing
que significa:-N
: não recupere arquivos a menos que seja mais recente que local-r
: especificar download recursivo-l inf
: profundidade máxima da recursão (inf ou 0 para infinito)--no-remove-listing
: não remova os arquivos '.listing'--convert-links
: criar links em HTML ou CSS baixados apontam para arquivos locais--no-parent
: não ascenda ao diretório pai--wait=5
: aguarde 5 segundos entre as recuperações. Para não debater o servidor.<website-url>
: Este é o URL do site de onde baixar os arquivos.Download feliz: smiley:
fonte