Script de crawl de pages web : Développement d'un site Web
//
accueil
forum
actualités
dossiers
annuaire
outils
formation
S'abonner aux flux RSS
Modifier la taille de la police
Imprimer le sujet
Accueil forum > Gestion d'un site Web > Développement d'un site Web
Règles
FAQ
M’enregistrer
Connexion
Script de crawl de pages web
Répondre
5 messages
• Page 1 sur 1
Consultez la formation HTML/CSS et Wordpress optimisée référencement par WebRankInfo / Ranking Metrics / Alsacréations
dadovb
WRInaute passionné
Messages: 2049Inscription: Mar Nov 22, 2005 10:50
Site Internet
Script de crawl de pages web
le Jeu Aoû 17, 2006 16:38
Bonjour à tous,
Je recherche un script permettant de crawler des sites web, comme ce que fait spider-simulator et j'ai du mal à trouver des infos sur google. Certains d'entre vous connaitrait-ils des ressources me permettant d'avancer dans ma recherche ?
Merci d'avance
Haut
obi
WRInaute discret
Messages: 238Inscription: Mer Juil 26, 2006 11:53
Site Internet
le Jeu Aoû 17, 2006 16:52
Ca s'écrit assez facilement en php ça:
fopen t'ouvre l'URL comme un fichier, et plus qu'à virer les balises avec une ou deux regexp bien senties
et si tu connais pas, c'est un bon exercice pour apprendre
Haut
dadovb
WRInaute passionné
Messages: 2049Inscription: Mar Nov 22, 2005 10:50
Site Internet
le Jeu Aoû 17, 2006 17:07
Merci maitre, la force soit avec vous !
Haut
obi
WRInaute discret
Messages: 238Inscription: Mer Juil 26, 2006 11:53
Site Internet
le Jeu Aoû 17, 2006 17:11
Voilà, visible ici pour qques temps:
http://www.esterel-technologies.com/flat.php
C'est pas ce qui se fait de mieux (vieille version de php sur mon serveur), et l'url est en dur ...
Code: Tout sélectionner<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"><html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr"><head><title>flattened page: http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /></head><body><?php$h = fopen('http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303', 'r');$contents = '';while (!feof($h)) { $contents .= fread($h, 8192);}fclose($h);echo strip_tags($contents);?></body></html>
Haut
obi
WRInaute discret
Messages: 238Inscription: Mer Juil 26, 2006 11:53
Site Internet
le Jeu Aoû 17, 2006 17:16
Restent des problèmes d'encodage, virer le contenu des balises <script>, évenuellement réinsérer le contenu des <img alt="*">; mais bon l'idée est là.
Haut
Répondre
5 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation Web Design : apprenez à créer des sites bien faits en HTML/CSS et/ou avec Wordpress qui soient optimisés pour le référencement... Formation animée par des experts d'Alsacréations et de Ranking Metrics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
Amazon crawl le web ? (2010-06-03)
Web TV (YouTube TV Script) (2008-08-10)
Script de traduction de pages web (2006-09-09)
Script assistance web et documentation pdf (2008-07-16)
Script pour services d'hebergement Web (2006-12-17)
Script anti-copie de site web (2006-12-13)
Aspirateur de site web (.htaccess + script) (2005-03-21)
Existe-t-il 1 script détectant le PR d'une page web ? (2004-10-12)
Script annuaire ! pas uniquement pour les sites web (2009-01-04)
script pour savoir la taille d'un espace web (d'héberement) (2007-04-03)
Le Full Crawl a enfin commencé - 06-02-2003
Début du Full Crawl - 03-01-2003
Les albums web Picasa passent à 1 Go de stockage - 08-03-2007
Le début du full crawl - 02-12-2002
Explications sur le Crawl Caching Proxy de Google - 26-04-2006
Photos satellite des incendies en Grèce dans Google Earth - 30-08-2007
Ajouter un Gadget Google sur son site - 04-10-2006
Google Desktop pour Mac OS X - 05-04-2007
Consultez la description détaillée des produits ou services de Google suivants : Google Webmaster Tools, Google Sitemaps
Analyser la classe C de l'adresse IPCet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur).
Crawl
Crawl Caching Proxy
Crawl Google
Crawl de MSNbot
Crawl rate
Deep crawl
Droit du web
Entrepreneurs du web
Formation Web 2.0
Fresh crawl
Full crawl
Paramètres de crawl de Google
Problèmes de crawl
Web 2.0
Web rédacteurs
Règles
M’enregistrer
Connexion
Qui est en ligne
Utilisateurs parcourant ce forum: Anto1982 et 0 invités
Index du forum
L’équipe du forum • Supprimer les cookies du forum • Heures au format UTC + 2 heures
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Traduction par: phpBB-fr.com, mod SEO par phpbb-seo.com
Conception
Mentions légales
Plan du site
Contact
Confidentialité
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E"));
try {
var pageTrackerExt = _gat._getTracker("UA-106801-6");
var pageTracker = _gat._getTracker("UA-106801-1");
pageTrackerExt._setDomainName(".webrankinfo.com");
pageTracker._setDomainName(".webrankinfo.com");
pageTracker._trackPageview();
}
catch(err)
{
}