Script de crawl de pages web : Développement d'un site Web
//
{lang: 'fr'}
var _gaq = _gaq || [];
_gaq.push(['_setAccount', 'UA-106801-1']);
_gaq.push(['_setDomainName', '.webrankinfo.com']);
_gaq.push(['_setAllowAnchor', true]);
_gaq.push(['_setCustomVar', 2, "connecte", "non", 2]);
_gaq.push(['_setCustomVar', 2, "internaute", "inconnu", 2]);
_gaq.push(['_trackPageview']);
_gaq.push(['_trackPageLoadTime']);
(function() {
var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
})();
(function(){
var twitterWidgets = document.createElement('script');
twitterWidgets.type = 'text/javascript';
twitterWidgets.async = true;
twitterWidgets.src = 'http://platform.twitter.com/widgets.js';
twitterWidgets.onload = _ga.trackTwitter;
document.getElementsByTagName('head')[0].appendChild(twitterWidgets);
})();
Suivez WebRankInfo sur les réseaux sociaux :
accueil
forum
dossiers
annuaire
outils
formation
S'abonner aux flux RSS
Modifier la taille de la police
Imprimer le sujet
Accueil forum > Gestion d'un site Web > Développement d'un site Web
Règles
FAQ
M’enregistrer
Connexion
Tweet
Script de crawl de pages web
Répondre
5 messages
• Page 1 sur 1
dadovb
WRInaute passionné
Messages:
2050
Inscription: 22 Nov 2005
Site Internet
Script de crawl de pages web
le Jeu Aoû 17, 2006 15:38
Bonjour à tous,
Je recherche un script permettant de crawler des sites web, comme ce que fait spider-simulator et j'ai du mal à trouver des infos sur google. Certains d'entre vous connaitrait-ils des ressources me permettant d'avancer dans ma recherche ?
Merci d'avance
Haut
obi
WRInaute discret
Messages:
238
Inscription: 26 Juil 2006
Site Internet
le Jeu Aoû 17, 2006 15:52
Ca s'écrit assez facilement en php ça:
fopen t'ouvre l'URL comme un fichier, et plus qu'à virer les balises avec une ou deux regexp bien senties
et si tu connais pas, c'est un bon exercice pour apprendre
Haut
dadovb
WRInaute passionné
Messages:
2050
Inscription: 22 Nov 2005
Site Internet
le Jeu Aoû 17, 2006 16:07
Merci maitre, la force soit avec vous !
Haut
obi
WRInaute discret
Messages:
238
Inscription: 26 Juil 2006
Site Internet
le Jeu Aoû 17, 2006 16:11
Voilà, visible ici pour qques temps:
http://www.esterel-technologies.com/flat.php
C'est pas ce qui se fait de mieux (vieille version de php sur mon serveur), et l'url est en dur ...
Code: Tout sélectionner<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"><html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr"><head><title>flattened page: http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" /></head><body><?php$h = fopen('http://www.webrankinfo.com/forums/viewtopic.php?p=551303#551303', 'r');$contents = '';while (!feof($h)) { $contents .= fread($h, 8192);}fclose($h);echo strip_tags($contents);?></body></html>
Haut
obi
WRInaute discret
Messages:
238
Inscription: 26 Juil 2006
Site Internet
le Jeu Aoû 17, 2006 16:16
Restent des problèmes d'encodage, virer le contenu des balises <script>, évenuellement réinsérer le contenu des <img alt="*">; mais bon l'idée est là.
Haut
Répondre
5 messages
• Page 1 sur 1
Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :
Tweet
Partager
Lectures recommandées sur ce thème :
Amazon crawl le web ?
Les robots qui crawl les sites pourait il executer des script php ?
Web TV (YouTube TV Script)
Script assistance web et documentation pdf
Script pour services d'hebergement Web
Script anti-copie de site web
Script de traduction de pages web
Aspirateur de site web (.htaccess + script)
Recherche script d'annuaire : pas d'adresse web
Script de gestion de news pour site web
Le Full Crawl a enfin commencé
Consultez la description détaillée des produits ou services de Google suivants : Google Webmaster Tools, Google Sitemaps
Analyser la classe C de l'adresse IPCet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur).
Crawl
Crawl Caching Proxy
Crawl Google
Crawl de MSNbot
Crawl rate
Deep crawl
Développement web
Fresh crawl
Full crawl
Paramètres de crawl de Google
Problèmes de crawl
Rédaction web
Web 2.0
Web Security
Web sémantique
Règles
M’enregistrer
Connexion
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités
Index du forum
L’équipe du forum • Supprimer les cookies du forum • Heures au format UTC + 1 heure
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Traduction par: phpBB-fr.com, mod SEO par phpbb-seo.com
Conception
Mentions légales
Plan du site
Contact
Confidentialité
(function() {
var e = document.createElement('script'); e.async = true;
e.src = document.location.protocol +
'//connect.facebook.net/fr_FR/all.js';
document.getElementById('fb-root').appendChild(e);
}());
window.fbAsyncInit = function() {
FB.init({appId: '255680441125864', status: true, cookie: true,
xfbml: true});
_ga.trackFacebook();
};
{lang: 'fr'}