skip to main | skip to sidebar
Code 18
Manuel du savoir-faire à l'usage des geeks et des curieux
RSS
  • Accueil
  • Le web au Québec
  • Liens
  • Twitter
  • Facebook
  • À propos

lundi 6 décembre 2010

Comme le fondateur de WikiLeaks, je vire parano

Publié par Infinite Loop, à 20 h 01 0 commentaire

Comme WikiLeaks compte déjà 208 sites mirroirs pour se protéger de la censure, il est temps que je fasse une copie de sauvegarde de la totalité de mon blogue avant qu'un malheur arrive. Eh oui, à l'image de la télésérie Virginie, je me base aussi sur l'actualité pour rédiger mon contenu. Patience, ça tire à sa fin! Pas mon blogue, Virginie!

Alors, comment on s'y prend pour aspirer la totalité d'un site ? Avec la commande GNU Wget sur Linux bien sûr! Essentiellement, la commande suivante devrait suffire à récupérer les pages HTML de mon blogue :

wget -r http://code18.blogspot.com

Mais Wget compte tellement d'options puissantes que la tentation est grande de les utiliser :

wget -r -p --random-wait robots-off -U mozilla -P code18 http://code18.blogspot.com/

-r : récursif
-p : télécharge tout ce qui est dépendant de la page pour l'afficher correctement
--random-wait : attend un nombre aléatoire de secondes entre les requêtes pour éviter d'être "black listé"
robots-off : pour qu'il ne suive pas les directives dans robots.txt
-U : pour indiquer le nom du user-agent qui sera envoyé au serveur HTTP
-P : pour indiquer, selon le répertoire courant d'où la commande est appelée, dans quel répertoire on enregistrera le contenu aspiré

Le hic, c'est que les images n'ont pas suivies car j'ai remarqué qu'elles sont hébergées sur un serveur différent, soit 4.bp.blogspot.com. On recommence en appliquant quelques modifications.

wget -r -p --random-wait robots-off -U mozilla -P code18 http://code18.blogspot.com/ -H -D code18.blogspot.com,4.bp.blogspot.com

-H permet d'étendre la récupération récursivement sur différents hôtes
-D suivi d'une liste de domaines séparés par des virgules permet de restreindre la récupération à ces domaines

Maintenant ça fonctionne. Pour faire une copie de sauvegarde des images, Wget crée sur mon poste un répertoire 4.bp.blogspot.com et l'alimente en créant l'arborescence complète avec une série de répertoires aux noms bizarres.

Et si j'avais voulu juste les images, toutes au même endroit (1 répertoire unique) ?

wget -r -p -nd --random-wait robots-off -U mozilla -P images -A jpg,jpeg,gif,png http://code18.blogspot.com/ -H -D code18.blogspot.com,4.bp.blogspot.com

-nd (no directories) pour que tous les fichiers s'enregistrent dans le répertoire indiqué sous l'option -P (images)
-A pour spécifier les extensions à conserver

Puissant, n'est-ce pas ? Je disais au début du billet que cette commande est pour Linux mais les utilisateurs de Windows ne seront pas en peine puisqu'il existe aussi une adaptation de Wget pour Windows si vous souhaitez vous amusez aussi.

En conclusion, avant d'avoir l'idée folle de télécharger la totalité de Wikipedia avec cet outil pratique, jetez plutôt un coup d'oeil à leur section Télécharger la base de données...


Tags: Linux

0 réponse à "Comme le fondateur de WikiLeaks, je vire parano"


Publier un commentaire

Message plus récent Messages plus anciens Accueil
S'abonner à : Publier des commentaires (Atom)
    Suivre @code18 sur Twitter

    Catégories

    • Apache (21)
    • Citations (167)
    • Club Vidéo (24)
    • Coffre à outils (56)
    • CSS (8)
    • Curiosités (117)
    • Design Pattern (2)
    • Drupal (8)
    • Easter Eggs (22)
    • Extensions Firefox (20)
    • GIMP (7)
    • Histoire (21)
    • HTML (32)
    • Humour (57)
    • Intégration (34)
    • iPod (12)
    • JavaScript (110)
    • Jeu de combat (6)
    • Le coin du geek (128)
    • Liens (12)
    • Linux (56)
    • Livres (78)
    • Lois et principes (46)
    • Marché des saveurs (26)
    • Mathématique (18)
    • Mobile (5)
    • Montréal (32)
    • Musique (112)
    • Pancartes et écriteaux (16)
    • Perl (8)
    • Pérou (1)
    • PHP (130)
    • PostgreSQL (44)
    • Programmation (105)
    • Saviez-vous que (55)
    • Sécurité (22)
    • SEO (5)
    • SQL Server (22)
    • Vieilles publicités (6)
    • Virtualisation (8)
    • Voyages (1)
    • Zend Framework (26)

    Divers

    Archives

    • ►  2015 (6)
      • ►  août 2015 (1)
      • ►  juillet 2015 (1)
      • ►  février 2015 (3)
      • ►  janvier 2015 (1)
    • ►  2014 (8)
      • ►  décembre 2014 (1)
      • ►  novembre 2014 (1)
      • ►  octobre 2014 (1)
      • ►  août 2014 (2)
      • ►  juillet 2014 (2)
      • ►  janvier 2014 (1)
    • ►  2013 (53)
      • ►  décembre 2013 (2)
      • ►  novembre 2013 (1)
      • ►  octobre 2013 (3)
      • ►  septembre 2013 (2)
      • ►  août 2013 (5)
      • ►  juillet 2013 (3)
      • ►  juin 2013 (5)
      • ►  mai 2013 (3)
      • ►  avril 2013 (7)
      • ►  mars 2013 (7)
      • ►  février 2013 (11)
      • ►  janvier 2013 (4)
    • ►  2012 (105)
      • ►  décembre 2012 (8)
      • ►  novembre 2012 (5)
      • ►  octobre 2012 (4)
      • ►  septembre 2012 (1)
      • ►  août 2012 (8)
      • ►  juillet 2012 (7)
      • ►  juin 2012 (7)
      • ►  mai 2012 (10)
      • ►  avril 2012 (13)
      • ►  mars 2012 (15)
      • ►  février 2012 (15)
      • ►  janvier 2012 (12)
    • ►  2011 (146)
      • ►  décembre 2011 (14)
      • ►  novembre 2011 (11)
      • ►  octobre 2011 (12)
      • ►  septembre 2011 (13)
      • ►  août 2011 (15)
      • ►  juillet 2011 (17)
      • ►  juin 2011 (18)
      • ►  mai 2011 (15)
      • ►  avril 2011 (9)
      • ►  mars 2011 (7)
      • ►  février 2011 (3)
      • ►  janvier 2011 (12)
    • ▼  2010 (398)
      • ▼  décembre 2010 (29)
        • J'ai passé mon cours de programmation avec une not...
        • Piège JavaScript avec undefined et les closures
        • Mauvaise traduction double
        • Connexion VPN avec rdesktop d'Ubuntu à Windows
        • Jouer un wav avec PlaySound et contrôler le volume
        • Citation no. 113 sur le Père Noël
        • Meilleurs voeux pour Noël
        • Illusion d'optique animée
        • Hackers, heroes of the computer revolution
        • Script PHP pour obtenir la liste de tous ses statu...
        • Citation no. 112 sur le bonheur
        • Récupérer le contenu d'un fichier UIF en le conver...
        • Je n'ai jamais vu ce personnage dans Zelda
        • Évaluer des conditions multiples dans une instruct...
        • Redirections HTTP, JavaScript et Refresh
        • Nouvelle balise Datalist en HTML5
        • Machine de Rube Goldberg
        • Excusez-moi, avez-vous l'heure ?
        • Citation no. 111 sur la créativité
        • Épitaphe insultante
        • Flashback en 1981 avec Softporn Adventure
        • Image de webcam en ASCII art sur Linux
        • Comme le fondateur de WikiLeaks, je vire parano
        • Preuve de l'existence des extraterrestres
        • Citation no. 110 sur Internet
        • Démarrer Firefox en mode plein écran par une ligne...
        • Contourner la limitation de la fonction unnest sou...
        • La magie du contexte dans jQuery
        • Trier les éléments du DOM avec TinySort pour jQuery
      • ►  novembre 2010 (28)
      • ►  octobre 2010 (32)
      • ►  septembre 2010 (34)
      • ►  août 2010 (22)
      • ►  juillet 2010 (35)
      • ►  juin 2010 (42)
      • ►  mai 2010 (36)
      • ►  avril 2010 (37)
      • ►  mars 2010 (34)
      • ►  février 2010 (32)
      • ►  janvier 2010 (37)
    • ►  2009 (430)
      • ►  décembre 2009 (32)
      • ►  novembre 2009 (34)
      • ►  octobre 2009 (33)
      • ►  septembre 2009 (37)
      • ►  août 2009 (37)
      • ►  juillet 2009 (39)
      • ►  juin 2009 (38)
      • ►  mai 2009 (37)
      • ►  avril 2009 (35)
      • ►  mars 2009 (37)
      • ►  février 2009 (32)
      • ►  janvier 2009 (39)
    • ►  2008 (84)
      • ►  décembre 2008 (34)
      • ►  novembre 2008 (39)
      • ►  octobre 2008 (11)

    Abonnés

Copyright © All Rights Reserved. Code 18 | Converted into Blogger Templates by Theme Craft