Oft kommt es als Webmaster vor, das man eine Liste mit URL’s auf Fehler prüfen muß. Um zum Beispiel eine Liste mit URL’s auf tote Links bzw. 404 Not Found Fehler zu prüfen, kann man folgendes in Ruby geschriebene Script zu Hilfe nehmen. Das Script fällt in die Kategorie Quick Hack und ist unbedingt ausbaufähig.
require 'net/http' def check_for_notfound(url) uri = URI.parse(url) response = Net::HTTP.get_response(uri) case response when Net::HTTPNotFound: return true when Net::HTTPRedirection: puts check_for_notfound('http://' + uri.host + response['location']) else return nil end end File.open(ARGV[0]) do |f| f.each do |line| result = check_for_notfound(line) if !result.nil? and result == true puts line end end end
Wer ein besseres Script hat oder etwa eine Möglichkeit weiß, wie man dies mit wget lösen kann, bitte einen Kommentar hinterlassen. Danke!
Update:
Wie ich Dank eines anderen Blogs erfahren konnte, ist das mit wget natürlich auch schnell und sogar mit einem Einzeiler lösbar:
wget -r -nd --delete-after --no-parent --no-cookies --input-file=urls.txt
Ob man nun Ruby oder wget nutzt, hängt ganz davon ab, ob man es in eine Software integrieren möchte oder ob es nur einem schnellen administrativen Todo dienen soll.
Was denkst du?