skip to main | skip to sidebar
Code 18
Manuel du savoir-faire à l'usage des geeks et des curieux
RSS
  • Accueil
  • Le web au Québec
  • Liens
  • Twitter
  • Facebook
  • À propos

dimanche 10 mai 2009

3 façons de lire du XML en PHP

Publié par Infinite Loop, à 10 h 18 4 commentaires

Ce matin, j'ai fait des recherches sur les façons de lire des fichiers XML en PHP et comme il y a plusieurs possibilités, je voulais en connaître les différences. Mon but était de lire et de traiter un fichier XML volumineux, soit le fichier iTunes de ma collection mp3, sauf que le XML n'était pas tout à fait comme je m'y attendais (c'est un PLIST; ouvrez-le vous allez comprendre pourquoi). J'ai fini par utiliser la classe iTunes XML parser pour faire le travail (elle utilise DomDocument à l'intérieur).

Pour en revenir aux tests que j'avais fait, j'ai quand même vu comment on pouvait les utiliser. J'ai quand même décidé de mettre en ligne mon exemple du même code, dans chacune de ses 3 variantes. Pour simplifier le problème que j'ai rencontré avec iTunes, j'ai cherché et téléchargé une liste quelconque, par exemple un fichier XML contenant plus de 2400 User-Agents (environ 700 kb). Peu importe si l'information est valide ou exacte, c'était suffisant pour tester les capacités des différents modèles.

La structure du fichier ressemble à ceci et mon but est d'extraire les nodes String qui contiennent le user-agent et d'en créer une liste :

<?xml version="1.0"?>
<user-agents>
<user-agent>
<ID>id_moz_150408_3</ID>
<String>Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9b5) Gecko/2008032620 Firefox/3.0b5</String>
<Description>Mozilla Firefox 3.0 beta (Gran Paradiso) for Win</Description>
<Type>B</Type>
<Comment></Comment>
<Link1>http://developer.mozilla.org/en/docs/Firefox_3_for_developers</Link1>
<Link2></Link2>
</user-agent>
...
XMLReader
XMLReader est peut-être le plus compliqué à comprendre. On lit chaque node en boucle. Chacun possède un type (élément, attribut, texte, etc) qui doit être comparé avec les constantes prédéfinies. Ici, je recherche les éléments dont le nom est String.
$reader = new XMLReader();
$reader->open('allagents.xml');

while ($reader->read()) {
if ($reader->nodeType == XMLREADER::ELEMENT){
if ($reader->name == "String"){
$reader->read();
echo $reader->value . "\n";
}
}
}

$reader->close();
DOMDocument
Celui-ci est un peu plus simple, principalement parce qu'on peut utiliser un sélecteur pour obtenir d'un seul coup tous les nodes du document qui portent le nom user-agent. Ensuite, il suffit de boucler sur l'array et d'extraire le contenu du node qui porte le nom String. La fonction getElementsByTagName() retourne dans un array tous les éléments du node user-agent qui portent ce nom. Il n'en contient qu'un seul, c'est pourquoi on doit y faire référence par item(0).
$doc = new DOMDocument();
$doc->load( 'allagents.xml' );

$nodes = $doc->getElementsByTagName( "user-agent" );

foreach($nodes as $ua) {
$string = $ua->getElementsByTagName( "String" );
echo $string->item(0)->nodeValue . "\n";
}
SimpleXML
Encore mieux, SimpleXML rend l'opération plus facile. On peut utiliser xpath pour obtenir les nodes (au lieu de getElementsByTagName) en utilisant une syntaxe correspondant à la structure du fichier. Ensuite, on peut accéder aux propriétés de chaque node de la même façon qu'on le fait avec un objet (flèche).
$xml = new SimpleXMLElement('allagents.xml', Null, True);

// yeah! xpath!
$nodes = $xml->xpath('//user-agents/user-agent');

foreach($nodes as $ua) {
// attention, l'appel à String est case sensitive !
echo $ua->String . "\n";
}
Ceci représente l'essentiel de la lecture XML. Le traitement peut être plus complexe selon le cas mais ça donne quand même un aperçu des alternatives. J'espère que j'ai pu vous aider à démêler tout ça et à choisir la forme la plus appropriée pour vos besoins.


Tags: PHP

4 réponses à "3 façons de lire du XML en PHP"

  1. Julien a dit...
    12 mai 2009 à 21 h 58

    Hello,

    Juste pour noter qu'il y a une petite faute de frappe dans le code :

    echo '$reader->value . '\n';

    Le simple quote avant le $reader c'est pas bon :-)
    D'ailleurs, les simples quotes pour le \n en principe ça ne marche pas, il faut des doubles pour qu'ils soient interprétés comme un saut de ligne.

    Sinon, bon article mais il manque tout de même un petit bench pour comparer aussi l'exécution. Du coup je me le suis fait de mon côté parce que j'ai aussi besoin de choisir le meilleur moyen de parser du XML. Bon c'est pas forcément le bench fait dans les règles de l'art mais ça donne une bonne idée...

    Résultat des courses :
    En exécution pure, avec un microtime() avant et après :
    SimpleXML arrive en tête avec 0,07 sec
    XMLReader arrive ensuite avec 0,17 sec soit 2,18X plus que SimpleXML
    DOMDocument arrive bon dernier avec 0,3sec soit presque 4X plus que SimpleXML !

    J'ai également testé avec ab (Apache Bench) avec ce test : ab -n 500 -c 10

    SimpleXML : 19,42 requêtes à la seconde
    XMLReader : 11,16 requêtes à la seconde, presque deux fois moins (cohérent)
    DomDocument : 1,08 requêtes à la seconde !! Les performances s'effrondent visiblement quand il y a des requêtes concurrentes... C'est 20X moins que SimpleXML... J'avoue j'ai eu la flemme d'attendre la fin du test, quand j'ai vu ce résultat j'ai recommencé en ne mettant que 50 requêtes à effectuer : même problème. Les performances remontent lorsqu'on baisse le nombre de concurrences, mais on reste loin de SimpleXML avec un petit 7 requêtes à la secondes lorsqu'il n'y a qu'une seule connection...

    Tests effectués à l'arrache sur un iMac Alu 24" Core2Duo @2,4Ghz/2Go
    DomDocument

    Infinite Loop a dit...
    12 mai 2009 à 22 h 54

    Effectivement, tu as raison. Merci de m'avoir signalé l'erreur ainsi que pour les tests de benchmark.

    Au départ, j'avais rédigé l'article en utilisant une liste UL/LI et pour une raison obscure, Blogger retirait les tags HTML à chaque fois dans le formatage du code. J'ai tout remplacé par des \n sans avoir testé à nouveau.

    Marc's USA trip a dit...
    23 janvier 2012 à 16 h 05

    Merci beaucoup pour ce post!! J'etais justement coince pour la creation d'un site web ou je fais appel a un grand nombre de donnees et d'informations venant d'un fichier xml complet!

    p.s: desoler pour le manque d'accent, mais j'ecris depuis un clavier qwerty...

    Reda Makhchan a dit...
    26 avril 2012 à 11 h 37

    Alors je choisis SimpleXML ;)


Publier un commentaire

Message plus récent Messages plus anciens Accueil
S'abonner à : Publier des commentaires (Atom)
    Suivre @code18 sur Twitter

    Catégories

    • Apache (21)
    • Citations (167)
    • Club Vidéo (24)
    • Coffre à outils (56)
    • CSS (8)
    • Curiosités (117)
    • Design Pattern (2)
    • Drupal (8)
    • Easter Eggs (22)
    • Extensions Firefox (20)
    • GIMP (7)
    • Histoire (21)
    • HTML (32)
    • Humour (57)
    • Intégration (34)
    • iPod (12)
    • JavaScript (110)
    • Jeu de combat (6)
    • Le coin du geek (128)
    • Liens (12)
    • Linux (56)
    • Livres (78)
    • Lois et principes (46)
    • Marché des saveurs (26)
    • Mathématique (18)
    • Mobile (5)
    • Montréal (32)
    • Musique (112)
    • Pancartes et écriteaux (16)
    • Perl (8)
    • Pérou (1)
    • PHP (130)
    • PostgreSQL (44)
    • Programmation (105)
    • Saviez-vous que (55)
    • Sécurité (22)
    • SEO (5)
    • SQL Server (22)
    • Vieilles publicités (6)
    • Virtualisation (8)
    • Voyages (1)
    • Zend Framework (26)

    Divers

    Archives

    • ►  2015 (6)
      • ►  août 2015 (1)
      • ►  juillet 2015 (1)
      • ►  février 2015 (3)
      • ►  janvier 2015 (1)
    • ►  2014 (8)
      • ►  décembre 2014 (1)
      • ►  novembre 2014 (1)
      • ►  octobre 2014 (1)
      • ►  août 2014 (2)
      • ►  juillet 2014 (2)
      • ►  janvier 2014 (1)
    • ►  2013 (53)
      • ►  décembre 2013 (2)
      • ►  novembre 2013 (1)
      • ►  octobre 2013 (3)
      • ►  septembre 2013 (2)
      • ►  août 2013 (5)
      • ►  juillet 2013 (3)
      • ►  juin 2013 (5)
      • ►  mai 2013 (3)
      • ►  avril 2013 (7)
      • ►  mars 2013 (7)
      • ►  février 2013 (11)
      • ►  janvier 2013 (4)
    • ►  2012 (105)
      • ►  décembre 2012 (8)
      • ►  novembre 2012 (5)
      • ►  octobre 2012 (4)
      • ►  septembre 2012 (1)
      • ►  août 2012 (8)
      • ►  juillet 2012 (7)
      • ►  juin 2012 (7)
      • ►  mai 2012 (10)
      • ►  avril 2012 (13)
      • ►  mars 2012 (15)
      • ►  février 2012 (15)
      • ►  janvier 2012 (12)
    • ►  2011 (146)
      • ►  décembre 2011 (14)
      • ►  novembre 2011 (11)
      • ►  octobre 2011 (12)
      • ►  septembre 2011 (13)
      • ►  août 2011 (15)
      • ►  juillet 2011 (17)
      • ►  juin 2011 (18)
      • ►  mai 2011 (15)
      • ►  avril 2011 (9)
      • ►  mars 2011 (7)
      • ►  février 2011 (3)
      • ►  janvier 2011 (12)
    • ►  2010 (398)
      • ►  décembre 2010 (29)
      • ►  novembre 2010 (28)
      • ►  octobre 2010 (32)
      • ►  septembre 2010 (34)
      • ►  août 2010 (22)
      • ►  juillet 2010 (35)
      • ►  juin 2010 (42)
      • ►  mai 2010 (36)
      • ►  avril 2010 (37)
      • ►  mars 2010 (34)
      • ►  février 2010 (32)
      • ►  janvier 2010 (37)
    • ▼  2009 (430)
      • ►  décembre 2009 (32)
      • ►  novembre 2009 (34)
      • ►  octobre 2009 (33)
      • ►  septembre 2009 (37)
      • ►  août 2009 (37)
      • ►  juillet 2009 (39)
      • ►  juin 2009 (38)
      • ▼  mai 2009 (37)
        • Obtenir le Page Rank Google en PHP ou Perl
        • Citation no. 32 sur Windows
        • Google Talk chatback badge
        • Images volantes en JavaScript
        • ASP vs PHP
        • Intervalles de dates sous PostgreSQL et SQL Server
        • Ordre de chargement avec Prototype
        • Pouvez-vous lire ceci ?
        • Service ReCaptcha en français
        • Citation no. 31 sur la lune
        • Google killers
        • Configurer Zend_Tool en CLI
        • Quelques logos intéressants
        • Créer un WSDL facilement avec Zend Framework
        • XSS sur Wikio... et Archambault Musique
        • Encryption de données en PHP
        • Virtualiser les fureteurs avec Xenocode
        • Traductions pour Uploadify
        • Citation no. 30 sur la force
        • ASCII Art avec GIMP
        • Fonction JavaScript à paramètres variables
        • The Mythical Man-Month - Loi de Brooks
        • Fichier en attachement avec Zend_Mail
        • Konami Code sur jQuery et Facebook
        • Star Trek
        • 3 façons de lire du XML en PHP
        • Citation no. 29 sur l'infini
        • Déboguer avec FirePHP
        • 99 bouteilles de bière
        • Étude de cas Zend Solutions
        • Zend_Service_Twitter
        • Devinette mathématique classique
        • Obtenir l'extension d'un fichier
        • Récupérer une image sur Amazon avec Zend Framework
        • Citation no. 28 sur un jour de travail productif
        • Modifier l'entête Server d'Apache
        • Contrôler le téléchargement d'un fichier
      • ►  avril 2009 (35)
      • ►  mars 2009 (37)
      • ►  février 2009 (32)
      • ►  janvier 2009 (39)
    • ►  2008 (84)
      • ►  décembre 2008 (34)
      • ►  novembre 2008 (39)
      • ►  octobre 2008 (11)

    Abonnés

Copyright © All Rights Reserved. Code 18 | Converted into Blogger Templates by Theme Craft