Come faccio a estrarre tutti i collegamenti esterni di una pagina web e salvarli in un file?

Come faccio a estrarre tutti i collegamenti esterni di una pagina web e salvarli in un file?

Se si dispone di strumenti di row di command che potrebbero essere grandi.

Avnetworking bisogno di 2 strumenti, lince e awk , provate questo:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt 

Se avete bisogno di linee di numerazione, utilizzare il command nl , provate a:

 $ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt 

Ecco un miglioramento della risposta di Lilton: non c'è bisogno di awk affatto perché la lince ha alcune opzioni utili.

 lynx -listonly -nonumbers -dump http://www.google.com.br 

se vuoi i numbers

 lynx -listonly -dump http://www.google.com.br 
  1. Utilizza Beautiful Soup per recuperare le pagine web in questione.
  2. Utilizza awk per trovare tutti gli URL che non puntano al tuo dominio

Vorrei raccomandare Beautiful Soup over screen scraping tecniche.

se la row di command non è una forza puoi utilizzare l'estensione di copia di tutti i collegamenti di Firefox.