Script de crawl de pages web : Développement d'un site Web // {lang: 'fr'} var _gaq = _gaq || []; _gaq.push(['_setAccount', 'UA-106801-1']); _gaq.push(['_setDomainName', '.webrankinfo.com']); _gaq.push(['_setAllowAnchor', true]); _gaq.push(['_setCustomVar', 2, "connecte", "non", 2]); _gaq.push(['_setCustomVar', 2, "internaute", "inconnu", 2]); _gaq.push(['_trackPageview']); _gaq.push(['_trackPageLoadTime']); (function() { var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true; ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s); })(); (function(){ var twitterWidgets = document.createElement('script'); twitterWidgets.type = 'text/javascript'; twitterWidgets.async = true; twitterWidgets.src = 'http://platform.twitter.com/widgets.js'; twitterWidgets.onload = _ga.trackTwitter; document.getElementsByTagName('head')[0].appendChild(twitterWidgets); })(); Suivez WebRankInfo sur les réseaux sociaux : accueil forum dossiers annuaire outils formation S'abonner aux flux RSS Modifier la taille de la police Imprimer le sujet Accueil forum > Gestion d'un site Web > Développement d'un site Web Règles FAQ M’enregistrer Connexion Tweet Script de crawl de pages web Répondre 5 messages • Page 1 sur 1 dadovb WRInaute passionné   Messages: 2050 Inscription: 22 Nov 2005 Site Internet Script de crawl de pages web le Jeu Aoû 17, 2006 15:38 Bonjour à tous, Je recherche un script permettant de crawler des sites web, comme ce que fait spider-simulator et j'ai du mal à trouver des infos sur google. Certains d'entre vous connaitrait-ils des ressources me permettant d'avancer dans ma recherche ? Merci d'avance Haut obi WRInaute discret   Messages: 238 Inscription: 26 Juil 2006 Site Internet le Jeu Aoû 17, 2006 15:52 Ca s'écrit assez facilement en php ça: fopen t'ouvre l'URL comme un fichier, et plus qu'à virer les balises avec une ou deux regexp bien senties et si tu connais pas, c'est un bon exercice pour apprendre Haut dadovb WRInaute passionné   Messages: 2050 Inscription: 22 Nov 2005 Site Internet le Jeu Aoû 17, 2006 16:07 Merci maitre, la force soit avec vous ! Haut obi WRInaute discret   Messages: 238 Inscription: 26 Juil 2006 Site Internet le Jeu Aoû 17, 2006 16:11 Voilà, visible ici pour qques temps: http://www.esterel-technologies.com/flat.php C'est pas ce qui se fait de mieux (vieille version de php sur mon serveur), et l'url est en dur ... Code: Tout sélectionner<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"><html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr"><head><title>flattened page: http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /></head><body><?php$h = fopen('http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303', 'r');$contents = '';while (!feof($h)) {  $contents .= fread($h, 8192);}fclose($h);echo strip_tags($contents);?></body></html> Haut obi WRInaute discret   Messages: 238 Inscription: 26 Juil 2006 Site Internet le Jeu Aoû 17, 2006 16:16 Restent des problèmes d'encodage, virer le contenu des balises <script>, évenuellement réinsérer le contenu des <img alt="*">; mais bon l'idée est là. Haut Répondre 5 messages • Page 1 sur 1 Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés : Tweet Partager Lectures recommandées sur ce thème : Amazon crawl le web ? Les robots qui crawl les sites pourait il executer des script php ? Web TV (YouTube TV Script) Script assistance web et documentation pdf Script pour services d'hebergement Web Script anti-copie de site web Script de traduction de pages web Aspirateur de site web (.htaccess + script) Recherche script d'annuaire : pas d'adresse web Script de gestion de news pour site web Le Full Crawl a enfin commencé Consultez la description détaillée des produits ou services de Google suivants : Google Webmaster Tools, Google Sitemaps Analyser la classe C de l'adresse IPCet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur). Crawl Crawl Caching Proxy Crawl Google Crawl de MSNbot Crawl rate Deep crawl Développement web Fresh crawl Full crawl Paramètres de crawl de Google Problèmes de crawl Rédaction web Web 2.0 Web Security Web sémantique Règles M’enregistrer Connexion Qui est en ligne Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités Index du forum L’équipe du forum • Supprimer les cookies du forum • Heures au format UTC + 1 heure Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group Traduction par: phpBB-fr.com, mod SEO par phpbb-seo.com Conception Mentions légales Plan du site Contact Confidentialité (function() { var e = document.createElement('script'); e.async = true; e.src = document.location.protocol + '//connect.facebook.net/fr_FR/all.js'; document.getElementById('fb-root').appendChild(e); }()); window.fbAsyncInit = function() { FB.init({appId: '255680441125864', status: true, cookie: true, xfbml: true}); _ga.trackFacebook(); }; {lang: 'fr'}