Sep 07 2009

Faire un « crawler » avec wget

Ce poste est une mise en forme d'un « tip » sur Typo3 donnés lors de la T3UNI09. Le fichier source non formaté de ces « astuces » se trouve ICI.

Ce « crawler » (robot d'indexation, en bon français) pour Typo3 permet de régénérer le cache et d'indexer les ressources de votre site.
On commence par créer le fichier clean.sql contenant les commandes MySQL pour vider certaines tables (attention à ne pas se tromper)

    
use 'MabaseDeDonnée';
TRUNCATE `cache_extensions`;
TRUNCATE `cache_hash`;
TRUNCATE `cache_imagesizes`;
TRUNCATE `cache_md5params`;
TRUNCATE `cache_pages`;
TRUNCATE `cache_pagesection`;
TRUNCATE `cache_sys_dmail_stat`;
TRUNCATE `cache_typo3temp_log`;
TRUNCATE `tx_realurl_chashcache`;
TRUNCATE `tx_realurl_errorlog`;
TRUNCATE `tx_realurl_pathcache`;
TRUNCATE `tx_realurl_redirects`;
TRUNCATE `tx_realurl_uniqalias`;
TRUNCATE `tx_realurl_urldecodecache`;
TRUNCATE `tx_realurl_urlencodecache`;
TRUNCATE `index_config`;
TRUNCATE `index_debug`;
TRUNCATE `index_fulltext`;
TRUNCATE `index_grlist`;
TRUNCATE `index_phash`;
TRUNCATE `index_rel`;
TRUNCATE `index_section`;
TRUNCATE `index_stat_search`;
TRUNCATE `index_stat_word`;
TRUNCATE `index_words`;

Après avoir jeter un œil à la méthode de Yohann Cerdan pour planifier une tache CRON sous Typo3, on pourra s'intéresser à ce petit script crawler.sh:

    
#!/bin/sh
mysql -uUser -pMotDePasse < clean.sql
#-b           : passe en background
#-q           : déactive la sortie de Wget
#--force-html : force la lecture des liens de type fichier
#-nv          : pas de verbose
#-c           : continuer en cas d'erreur
#--no-cache   : envoie au serveur le directive `Pragma: no-cache'

wget -b -q -r -O /dev/null --no-cache --force-html -nv -c http://monurl.com

Ce « tip » a été donné par ? de chez ONEXT.