41Mag - Le fichier robots.txt

Le fichier robots.txt

Le fichier robots.txt permet d’aider et de restreindre l’indexation de vote site web dans les différents moteur de recherches. Ce petit fichier se place à la racine de votre site. Pour l’éditer, vous aurez juste besoin du bloc note.

Pour éditer votre fichier robots.txt, vous n’aurez besoin que d’un simple bloc-note. Ouvrez un nouveau fichier et nommez le « robots », l’extension .txt sera automatique.

Le fichier robots.txt est exploitable par quasiment tous les moteurs de recherches.

A quoi sert le fichier robots.txt

Pour faire simple, les moteurs de recherches n’indexent pas les pages visitées manuellement mais grâce à des « robots » qui parcourent le web en passant de lien en lien. Pour chaque page visité, le « robot » enregistre des données la concernant et les stockent dans son immense base de données.

Sur certain moteur de recherches, vous ne pouvez pas soumettre votre site à l’indexation. Vous devrez attendre la visite du « robot » propre à ce moteur. Celui de google est appelé GoogleBot.

La principale différence entre les moteurs de recherches et les annuaires viens de l’indexation des pages. En résumé, si comme nous avons vu ci-dessus le fonctionnement des moteurs de recherches, pour ce qui est des annuaires, vous devrez soumettre votre page manuellement. Les annuaires sont théoriquement censé filtrer les site qu’ils indexent pour n’en garder que le meilleur.

Le fichier robots.txt se place à la racine de votre site. Pour le placer à la racine, il vous faut le mettre au même endroit que votre page index.html. Un seul fichier contenant toutes les informations suffira pour tout votre site

ASTUCE : Si le fichier « robots » se trouve à la racine de votre site, son adresse est donc :

1
 http://www.votre-adresse.fr/robots.txt.

Vous pouvez essayer sur différents site pour étudier les différents fichiers utilisés. Pour notre site son adresse est naturellement : http://41mag.fr/robots.txt.

Même google à son propre fichier : http://www.google.fr/robots.txt

La syntaxe du fichier robots.txt

1
2
3
User-agent: *
Disallow: /repertoires/
Disallow: privée.html

La première ligne concerne les moteurs de recherches. La commande User-agent vous permet de choisir le moteur concerné. La valeur est ici representé par le symbole * .L’étoile signifie TOUT. Donc, pour ce premier exemple, les requêtes suivantes concerneront TOUT les moteurs de recherches (ou plus précisement leur robots qui indexeront votre site ).

Viennent ensuite les restrictions relatives à cette sélection, Disallow signifie NE PAS INDEXER. Vous pouvez indiquer sois un dossier, sois une page web. Dans l’exemple ci-dessus, le dossier intitulé « repertoires » (2ème ligne) et la page privée.html (3ème ligne) ne seront pas indexer par TOUT (*) les moteurs de recherches.

Vous remarquerez que les commentaires sont précédés du symbole #

1
2
3
# Exclure toute vos pages et tous vos fichier de l'indexation
User-agent: *
Disallow: /
1
2
3
4
5
# Autorise l'indexation uniquement au robot de google
User-agent: Googlebot
Disallow:
User-agent: *:
Disallow: /
1
2
3
4
# Vous pouvez également indiquez le chemin de votre sitemap
User-agent: *
Disallow:
Sitemap: http://www.votre_site.com/sitemap.xml

Dans ce dernier exemple, TOUT les moteurs de recherches seront concernés et indexeront TOUTES les pages ou fichiers du site. Dans ce cas, la présence du fichier robots.txt est inutile. En pratique, l’utilisation de ce fichier sert à limiter l’indexation de votre site, par exemple pour éviter que la page d’administration de votre site sois visible sur google.

Ne pas mettre * après Disallow car cela signifierais NE PAS INDEXER TOUT LE SITE.

Restreindre l’indexation avec les balises <meta />

Pour restreindre l’indexation d’un site, le fichier robots.txt n’est pas la seule solution. Il est également possible de le faire grâce à la balise <meta /> . Pour rappel, cette balise se place entre les deux balises <head />. Cette technique peut s’avérer plus rapide pour donner des instructions à quelques pages, mais lorsqu’il s’agit d’un dossier entier, préferez l’utilisation du fichier robots.txt.

1
2
3
4
<meta name="robots" content="noindex, nofollow" /> < ! --N'indexe PAS la page, Ne suis PAS les liens-- >
<meta name="robots" content="noindex, follow" /> < ! --N'indexe PAS la page, MAIS suis les liens-- >
<meta name="robots" content="index, nofollow" /> < ! --INDEXE la page, MAIS ne suis PAS les liens-- >
<meta name="robots" content="index, follow" /> < ! --INDEXE la page ET suis les liens-- >

La balise <meta /> appartient au language HTML5.

Ne mettre QU’UNE SEULE BALISE <meta name= »robots » … /> PAR PAGE.

En résumé

  • Vous ne devez avoir qu’un seul fichier robots.txt pour tout votre site web
  • Il sers a RESTREINTRE l’indexation de certain page ou repertoire
  • Si vous souhaites restreindre une seule page, utiliser les balises <meta />
  • Vous pouvez lui indiquez l’adresse de votre sitemap
  • Utilisez-le, par exemple, pour restreindre l’indexation de vos pages d’administration

Article du même thême : .

Copyright © 2013 | 41Mag. All rights reserved. Contact.
Integrated by Créa-troyes. Powered by WordPress.