Cartographie, taxonomie et robots

Définir des limites / taxonomie

…..

Une fois les limites tracées, on a maintenant des categories de contenu auxquelles ont peut faire subir le cloisonement, la répartition que l’on souhaite. Cela se materialise au travers de plusieurs aspects: navigation du site, un code de couleur, un modele de page, un editeur different et / ou une arborescence indépendante. Historiquement et bien avant l’avénement du tout dynamique, les webmasters avaient la tendance naturelle de mettre chaque contenu different dans un répertoire approrié. Le web était encore de l’informatique, un traitement classifié de l’information. Afin de mieux referencer, cataloguer l’ensemble du contenu qui se trouvait dans ces repertoires, les robots parcourent chaque site en passant de lien hypertexte en lien hypertexte. Pour autant, on peut souhaiter que ce travail d’indexation ne porte que sur une partie du contenu présenté.

Pourquoi controller l’indexation plutot que de chercher à tout referencer ?

  • Donner plus de clarete au coeur de metier: On ne met en avant que l’information qui correspond à la ligne editoriale, on ne souhaite pas obtenir de traffic sur des regions peripheriques de contenu
  • Jouer avec les regles de google: google ne reference qu’un nombre limité d’url par site, il ne faut donc pas qu’une page peripherique rentre en competition avec une page du noyau du site
  • La recuperation d’informations sur internet peut être un moyen tres simple de constituer une base de données comprenant des adresses email à spammer, par exemple.

Une fois la zone (non)referencable definie, il convient de mettre en pratique ces exclusions. On parle d’exclusions car c’est en effet une liste des endroits interdits qu’il convient de mettre sur pied.

 Le site “officiel” des robots (http://www.robotstxt.org/wc/robots.html) dresse une liste de ces programmes rendant visite aux sites web et donne des pistes, des modes d’emploi pour apprendre à bien maitriser leur language. On notera 2 types d’approche, soit page par page soit au moyen d’un fichier robot.txt qui liste les endroits non visitables qui seront exclus durant la visite. On voit bien dans quels cas utiliser chaque methode, les deux pouvant être combinées.

Example de tags à inserer page par page, dans les balises meta:

<meta name=”robots” content=”index,follow”>
<meta name=”robots” content=”noindex,follow”>
<meta name=”robots” content=”index,nofollow”>
<meta name=”robots” content=”noindex,nofollow”>

Plus d’informations ici: http://www.robotstxt.org/wc/meta-user.html

Example de fichier robot.txt, à placer à la racine du site

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

Plus d’informations ici: http://www.robotstxt.org/wc/exclusion-admin.html

On notera enfin que certain scripts permettent de générer ce fichier en quelques clics:
>> http://www.mcanerin.com/EN/search-engine/robots-txt.asp 
>> http://www.1-hit.com/all-in-one/tool-robots.txt-generator.htm

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Twitter picture

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Connexion à %s

Suivre

Get every new post delivered to your Inbox.