Des trous, des trous, oui mais maintenant on sait pourquoi!

Publié le 26 Novembre 2013

Comme nous l'avions précisé dans le dernier billet, nous avions quelques problèmes sur les erreurs soit en aspiration de pages, soit en dump. Et bien nous avons désormais la réponse, ou plutôt les réponses.

La première inconnue était de savoir pourquoi le tableau sautait 10 lignes pour les articles en anglais. Après une rapide recherche, je me suis rendue compte que ce saut se faisait aussi dans les dumps et dans les pages aspirées. Le problème vient donc de la source. En effet, pourquoi le programme aspirerait toutes les pages correctement, sauf celles-ci? Et bien parce que tous ces articles viennent du journal le New-York Times, et il est fort probable que le site de ce journal protège ses articles et s'oppose à l'aspiration "sauvage" de ses pages.

Deuxième inconnue, le "400 BAD REQUEST". Là encore, même problème! La seule chose qui change c'est la façon que le site a de nous montrer que ce que nous faisons ne lui plait pas! Ainsi, alors que dans le premier cas on ne daignait même pas nous avertir, ici on nous dit que les pages des journaux ne sont pas faites pour ça, enfin en tous cas c'est comme ça que je le comprends. Ce message d'erreur s'affiche dès la page aspirée. Et d'ailleurs, le fautif dans ce cas est le journal Libération pour mes recherches en Français.

Enfin, dernier cas, le "404 PAGE NOT FOUND", bien connu de la majorité d'entre nous puisqu'il ne faut pas attendre d'aspirer des pages pour en rencontrer un. Message différent mais toujours là même idée. Et pour changer, ici c'est El Pais, l'un des journaux espagnols qui a le plaisir de me l'afficher.

Donc au final, ce que l'on peut retenir de tout ça, c'est que:

- Tous les journaux ne se prêtent pas à l'aspiration des pages, et ce n'est pas forcément de notre faute. C'est donc un point à prendre en compte pour la suite, éventuellement parce que des recherches d'URLs de dernière minute seront nécessaires pour avoir une quantité suffisante de texte;

- Qu'il peut être envisagé de faire les URL récalcitrantes à la main, parce qu'on ne va pas se laisser faire aussi facilement(!);

- Qu'avant de dire que le programme ne fonctionne pas, il faut peut-être se demander si le problème ne vient pas d'ailleurs.

Voilà pour cette fois! Au final je me retrouve avec 34/50 URLs en Anglais et en Espagnol, mais uniquement 19/50 URLs en Français, ce qui est un peu faible. Je m'en retourne donc (presque) à la première étape pour cette langue.

Rédigé par Valentine

Publié dans #Débuggage

Repost0
Pour être informé des derniers articles, inscrivez vous :
Commenter cet article