Script de crawl de pages web : Développement d'un site Web
//
accueil
forum
actualités
dossiers
annuaire
outils
formation
S'abonner aux flux RSS
Modifier la taille de la police
Imprimer le sujet
Accueil forum > Gestion d'un site Web > Développement d'un site Web
Règles
FAQ
M’enregistrer
Connexion
Script de crawl de pages web
Répondre
5 messages
• Page 1 sur 1
Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics
dadovb
WRInaute accro
Messages: 2038Inscription: Mar Nov 22, 2005 9:50
Site Internet
Script de crawl de pages web
le Jeu Aoû 17, 2006 15:38
Bonjour à tous,
Je recherche un script permettant de crawler des sites web, comme ce que fait spider-simulator et j'ai du mal à trouver des infos sur google. Certains d'entre vous connaitrait-ils des ressources me permettant d'avancer dans ma recherche ?
Merci d'avance
Haut
obi
WRInaute occasionnel
Messages: 238Inscription: Mer Juil 26, 2006 10:53
Site Internet
le Jeu Aoû 17, 2006 15:52
Ca s'écrit assez facilement en php ça:
fopen t'ouvre l'URL comme un fichier, et plus qu'à virer les balises avec une ou deux regexp bien senties
et si tu connais pas, c'est un bon exercice pour apprendre
Haut
dadovb
WRInaute accro
Messages: 2038Inscription: Mar Nov 22, 2005 9:50
Site Internet
le Jeu Aoû 17, 2006 16:07
Merci maitre, la force soit avec vous !
Haut
obi
WRInaute occasionnel
Messages: 238Inscription: Mer Juil 26, 2006 10:53
Site Internet
le Jeu Aoû 17, 2006 16:11
Voilà, visible ici pour qques temps:
http://www.esterel-technologies.com/flat.php
C'est pas ce qui se fait de mieux (vieille version de php sur mon serveur), et l'url est en dur ...
Code: Tout sélectionner<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"><html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr"><head><title>flattened page: http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /></head><body><?php$h = fopen('http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303', 'r');$contents = '';while (!feof($h)) { $contents .= fread($h, 8192);}fclose($h);echo strip_tags($contents);?></body></html>
Haut
obi
WRInaute occasionnel
Messages: 238Inscription: Mer Juil 26, 2006 10:53
Site Internet
le Jeu Aoû 17, 2006 16:16
Restent des problèmes d'encodage, virer le contenu des balises <script>, évenuellement réinsérer le contenu des <img alt="*">; mais bon l'idée est là.
Haut
Répondre
5 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
Le Full Crawl a enfin commencé
Début du Full Crawl
Le début du full crawl
Les albums web Picasa passent à 1 Go de stockage
Explications sur le Crawl Caching Proxy de Google
Photos satellite des incendies en Grèce dans Google Earth
Ajouter un Gadget Google sur son site
Google Desktop pour Mac OS X
Picasa Web Albums en français
Petit changement pour Slurp (le robot de Yahoo)
Web TV (YouTube TV Script)
Script de traduction de pages web
Script assistance web et documentation pdf
Script pour services d'hebergement Web
Script anti-copie de site web
Aspirateur de site web (.htaccess + script)
Existe-t-il 1 script détectant le PR d'une page web ?
Script annuaire ! pas uniquement pour les sites web
script pour savoir la taille d'un espace web (d'héberement)
Script Gestion de noms de domaine pour une Web Agency
Rch script avec bdd pour agence immobillière sur le web
"Deep Crawl" ou "Fresh Crawl"
Madribot ne crawl plus
Crawl bizarre...
w3c et crawl
Consultez la description détaillée des produits ou services de Google suivants : Google Webmaster Tools, Google Sitemaps
Analyser la classe C de l'adresse IPCet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur).
Crawl
Crawl Caching Proxy
Crawl Google
Crawl de MSNbot
Crawl rate
Deep crawl
Droit du web
Définition du Web 2.0
Entrepreneurs du web
Formation Web 2.0
Fresh crawl
Full crawl
Paramètres de crawl de Google
Problèmes de crawl
Qualité web
Référencement Web 2.0
Taille du web
Web 2.0
Web Analytics
Web Security
Règles
M’enregistrer
Connexion
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités
Index du forum
L’équipe du forum • Supprimer les cookies du forum • Heures au format UTC + 1 heure
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
, traduction par: phpBB-fr.com, mod SEO par phpbb-seo.com
Conception
Mentions légales
Plan du site
Contact
Confidentialité
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E"));
try {
var pageTrackerExt = _gat._getTracker("UA-106801-6");
var pageTracker = _gat._getTracker("UA-106801-1");
pageTrackerExt._setDomainName(".webrankinfo.com");
pageTracker._setDomainName(".webrankinfo.com");
pageTracker._trackPageview();
}
catch(err)
{
}