Script de crawl de pages web : Développement d'un site Web // accueil forum actualités dossiers annuaire outils formation S'abonner aux flux RSS Modifier la taille de la police Imprimer le sujet Accueil forum > Gestion d'un site Web > Développement d'un site Web Règles FAQ M’enregistrer Connexion Script de crawl de pages web Répondre 5 messages • Page 1 sur 1 Consultez la formation HTML/CSS et Wordpress optimisée référencement par WebRankInfo / Ranking Metrics / Alsacréations dadovb WRInaute passionné   Messages: 2049Inscription: Mar Nov 22, 2005 10:50 Site Internet Script de crawl de pages web le Jeu Aoû 17, 2006 16:38 Bonjour à tous, Je recherche un script permettant de crawler des sites web, comme ce que fait spider-simulator et j'ai du mal à trouver des infos sur google. Certains d'entre vous connaitrait-ils des ressources me permettant d'avancer dans ma recherche ? Merci d'avance Haut obi WRInaute discret   Messages: 238Inscription: Mer Juil 26, 2006 11:53 Site Internet le Jeu Aoû 17, 2006 16:52 Ca s'écrit assez facilement en php ça: fopen t'ouvre l'URL comme un fichier, et plus qu'à virer les balises avec une ou deux regexp bien senties et si tu connais pas, c'est un bon exercice pour apprendre Haut dadovb WRInaute passionné   Messages: 2049Inscription: Mar Nov 22, 2005 10:50 Site Internet le Jeu Aoû 17, 2006 17:07 Merci maitre, la force soit avec vous ! Haut obi WRInaute discret   Messages: 238Inscription: Mer Juil 26, 2006 11:53 Site Internet le Jeu Aoû 17, 2006 17:11 Voilà, visible ici pour qques temps: http://www.esterel-technologies.com/flat.php C'est pas ce qui se fait de mieux (vieille version de php sur mon serveur), et l'url est en dur ... Code: Tout sélectionner<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"><html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr"><head><title>flattened page: http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /></head><body><?php$h = fopen('http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303', 'r');$contents = '';while (!feof($h)) {  $contents .= fread($h, 8192);}fclose($h);echo strip_tags($contents);?></body></html> Haut obi WRInaute discret   Messages: 238Inscription: Mer Juil 26, 2006 11:53 Site Internet le Jeu Aoû 17, 2006 17:16 Restent des problèmes d'encodage, virer le contenu des balises <script>, évenuellement réinsérer le contenu des <img alt="*">; mais bon l'idée est là. Haut Répondre 5 messages • Page 1 sur 1 Formation recommandée sur ce thème : Formation Web Design : apprenez à créer des sites bien faits en HTML/CSS et/ou avec Wordpress qui soient optimisés pour le référencement... Formation animée par des experts d'Alsacréations et de Ranking Metrics. Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne. Lectures recommandées sur ce thème : Amazon crawl le web ? (2010-06-03) Web TV (YouTube TV Script) (2008-08-10) Script de traduction de pages web (2006-09-09) Script assistance web et documentation pdf (2008-07-16) Script pour services d'hebergement Web (2006-12-17) Script anti-copie de site web (2006-12-13) Aspirateur de site web (.htaccess + script) (2005-03-21) Existe-t-il 1 script détectant le PR d'une page web ? (2004-10-12) Script annuaire ! pas uniquement pour les sites web (2009-01-04) script pour savoir la taille d'un espace web (d'héberement) (2007-04-03) Le Full Crawl a enfin commencé - 06-02-2003 Début du Full Crawl - 03-01-2003 Les albums web Picasa passent à 1 Go de stockage - 08-03-2007 Le début du full crawl - 02-12-2002 Explications sur le Crawl Caching Proxy de Google - 26-04-2006 Photos satellite des incendies en Grèce dans Google Earth - 30-08-2007 Ajouter un Gadget Google sur son site - 04-10-2006 Google Desktop pour Mac OS X - 05-04-2007 Consultez la description détaillée des produits ou services de Google suivants : Google Webmaster Tools, Google Sitemaps Analyser la classe C de l'adresse IPCet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur). Crawl Crawl Caching Proxy Crawl Google Crawl de MSNbot Crawl rate Deep crawl Droit du web Entrepreneurs du web Formation Web 2.0 Fresh crawl Full crawl Paramètres de crawl de Google Problèmes de crawl Web 2.0 Web rédacteurs Règles M’enregistrer Connexion Qui est en ligne Utilisateurs parcourant ce forum: Anto1982 et 0 invités Index du forum L’équipe du forum • Supprimer les cookies du forum • Heures au format UTC + 2 heures Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group Traduction par: phpBB-fr.com, mod SEO par phpbb-seo.com Conception Mentions légales Plan du site Contact Confidentialité var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www."); document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E")); try { var pageTrackerExt = _gat._getTracker("UA-106801-6"); var pageTracker = _gat._getTracker("UA-106801-1"); pageTrackerExt._setDomainName(".webrankinfo.com"); pageTracker._setDomainName(".webrankinfo.com"); pageTracker._trackPageview(); } catch(err) { }