Script de crawl de pages web : Développement d'un site Web // accueil forum actualités dossiers annuaire outils formation S'abonner aux flux RSS Modifier la taille de la police Imprimer le sujet Accueil forum > Gestion d'un site Web > Développement d'un site Web Règles FAQ M’enregistrer Connexion Script de crawl de pages web Répondre 5 messages • Page 1 sur 1 Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics dadovb WRInaute accro   Messages: 2038Inscription: Mar Nov 22, 2005 9:50 Site Internet Script de crawl de pages web le Jeu Aoû 17, 2006 15:38 Bonjour à tous, Je recherche un script permettant de crawler des sites web, comme ce que fait spider-simulator et j'ai du mal à trouver des infos sur google. Certains d'entre vous connaitrait-ils des ressources me permettant d'avancer dans ma recherche ? Merci d'avance Haut obi WRInaute occasionnel   Messages: 238Inscription: Mer Juil 26, 2006 10:53 Site Internet le Jeu Aoû 17, 2006 15:52 Ca s'écrit assez facilement en php ça: fopen t'ouvre l'URL comme un fichier, et plus qu'à virer les balises avec une ou deux regexp bien senties et si tu connais pas, c'est un bon exercice pour apprendre Haut dadovb WRInaute accro   Messages: 2038Inscription: Mar Nov 22, 2005 9:50 Site Internet le Jeu Aoû 17, 2006 16:07 Merci maitre, la force soit avec vous ! Haut obi WRInaute occasionnel   Messages: 238Inscription: Mer Juil 26, 2006 10:53 Site Internet le Jeu Aoû 17, 2006 16:11 Voilà, visible ici pour qques temps: http://www.esterel-technologies.com/flat.php C'est pas ce qui se fait de mieux (vieille version de php sur mon serveur), et l'url est en dur ... Code: Tout sélectionner<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"><html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr"><head><title>flattened page: http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /></head><body><?php$h = fopen('http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303', 'r');$contents = '';while (!feof($h)) {  $contents .= fread($h, 8192);}fclose($h);echo strip_tags($contents);?></body></html> Haut obi WRInaute occasionnel   Messages: 238Inscription: Mer Juil 26, 2006 10:53 Site Internet le Jeu Aoû 17, 2006 16:16 Restent des problèmes d'encodage, virer le contenu des balises <script>, évenuellement réinsérer le contenu des <img alt="*">; mais bon l'idée est là. Haut Répondre 5 messages • Page 1 sur 1 Formation recommandée sur ce thème : Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel. Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne. Lectures recommandées sur ce thème : Le Full Crawl a enfin commencé Début du Full Crawl Le début du full crawl Les albums web Picasa passent à 1 Go de stockage Explications sur le Crawl Caching Proxy de Google Photos satellite des incendies en Grèce dans Google Earth Ajouter un Gadget Google sur son site Google Desktop pour Mac OS X Picasa Web Albums en français Petit changement pour Slurp (le robot de Yahoo) Web TV (YouTube TV Script) Script de traduction de pages web Script assistance web et documentation pdf Script pour services d'hebergement Web Script anti-copie de site web Aspirateur de site web (.htaccess + script) Existe-t-il 1 script détectant le PR d'une page web ? Script annuaire ! pas uniquement pour les sites web script pour savoir la taille d'un espace web (d'héberement) Script Gestion de noms de domaine pour une Web Agency Rch script avec bdd pour agence immobillière sur le web "Deep Crawl" ou "Fresh Crawl" Madribot ne crawl plus… Crawl bizarre... w3c et crawl Consultez la description détaillée des produits ou services de Google suivants : Google Webmaster Tools, Google Sitemaps Analyser la classe C de l'adresse IPCet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur). Crawl Crawl Caching Proxy Crawl Google Crawl de MSNbot Crawl rate Deep crawl Droit du web Définition du Web 2.0 Entrepreneurs du web Formation Web 2.0 Fresh crawl Full crawl Paramètres de crawl de Google Problèmes de crawl Qualité web Référencement Web 2.0 Taille du web Web 2.0 Web Analytics Web Security Règles M’enregistrer Connexion Qui est en ligne Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités Index du forum L’équipe du forum • Supprimer les cookies du forum • Heures au format UTC + 1 heure Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group , traduction par: phpBB-fr.com, mod SEO par phpbb-seo.com Conception Mentions légales Plan du site Contact Confidentialité var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www."); document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E")); try { var pageTrackerExt = _gat._getTracker("UA-106801-6"); var pageTracker = _gat._getTracker("UA-106801-1"); pageTrackerExt._setDomainName(".webrankinfo.com"); pageTracker._setDomainName(".webrankinfo.com"); pageTracker._trackPageview(); } catch(err) { }