Lexique de fichiers - Format de fichier : robots.txt

Syntaxe

parametre valeur

parametre valeur
parametre valeur

parametre valeur
parametre valeur
...

Paramètres

Nom	Description
Allow: dossier	Ce paramètre permet d'autoriser au moteur de recherche d'indexer un dossier du site Web. Ce paramètre n'est pas nécessaire, puisque par défaut il autorise tous les dossiers. Cependant, il peut arriver qu'un sous-dossier doit être autorisé dans un dossier interdit, dans ce cas, vous devriez utiliser ce paramètre.
Crawl-delay: nombredesecondes	Ce paramètre permet d'indiquer qu'il faut attendre le nombre de secondes spécifiés avant le lire la page suivante sur le site Web. Ce paramètre peut être nécessaire si un moteur de recherche lire de façon trop agressive les pages de votre site Web. Il est a noter que Google ne supporte pas se paramètre contrairement à Yahoo, Bing et Yandex.
Disallow: dossier	Ce paramètre permet d'interdire au moteur de recherche d'indexer un dossier du site Web.
Sitemap: url	Ce paramètre permet d'indiquer un URL vers un fichier de format «sitemap.xml», lequel renferme une liste de lien vers les pages du site. S'il y a plusieurs fichier de sitemap pour un même site, il faut une ligne différente pour chaque fichier sitemap spécifié.
User-agent: critere	Ce paramètre permet d'indiquer à quel moteur de recherche s'adresse les paramètres suivants. Le caractère générique «*» permet d'indiquer tous les moteurs de recherche.

Description

Ce fichier, situé dans la racine d'une site Web, contient les informations dont devra tenir compte le moteur de recherche pour analyser le site. Donc, le moteur de recherche, avant de parcourir un site, commencera par lire se fichier, et ensuite, tiendra compte des informations incluses dans chacune des pages.

Remarques

ATTENTION ! Seul et uniquement le fichier «robots.txt» situé à la racine du site est pris en compte par les moteurs de recherche. Si vous en avez spécifié dans des dossier ou sous-dossier ceux-ci ne seront jamais pris en compte par les moteurs de recherche.
On peut utiliser le caractère générique (wildcard) astérisque «*» pour en subtiliser plusieurs. Par exemple, dans une valeur de recherche comme le paramètre «Disallow:».
Si vous souhaitez indiquer un commentaire dans le fichier «robots.txt», vous devez commencer la ligne par un caractère «#» et faire suivre ce symbole par vos commentaires. Seule la ligne où vous écrivez ce symbole est considérée comme un commentaire, la ligne suivante n'est donc plus perçue comme un commentaire.
La taille maximum supportée pour un fichier «Sitemap» est 10 Mo ou 50 000 URL.
Les grandes entreprises, comme Google, fournissent des outils style «outils pour webmestres», lesquelles permettent d'ajuster ses fichiers et de connaitre les problèmes potentiels.
Si vous souhaitez appliquer des règles à seul une page en particulier, il serait préférable d'utiliser les balises «META» du «HTML».
Il est souvent préférable d'inclure comme interdit les moteurs de recherches nuisibles au SEO (connu sous l'appel «Bad-Robots from robots.txt» en anglais) dans ce fichier. Même si ses moteurs de recherche ne respectent pas toujours les règles écrites, car il est quand même possible de lire l'information sur le site Web, vous limitez les dégâts dans plusieurs cas.
Si vous utilisez un projet comme WordPress, vous devriez plutôt passer par le plug-in «PC Robots.txt» disponible à cette adresse : http://wordpress.org/plugins/pc-robotstxt/.
Dans quelle circonstance doit-on interdire tous les fichiers par un moteur de recherche ? Pour des raisons de sécurité, il est recommandé d'interdire tous les dossiers et fichiers dans le cas d'un dossier administrateur ou d'un accès à un domaine d'authentification à des administrateurs.
Les moteurs de recherches commence d'abord à lire dans le dossier racine de votre site Web le «/robots.txt», et ensuite il analyse les pages de votre site suite aux informations recueillis dans ce fichier. Si vous indiquez n'importe quel paramètre, le SEO pourrait ne pas en tenir compte.

Exemples

Cet exemple, d'un fichier «robots.txt» situé à la racine du site «http://www.gladir.com/robots.txt», permet d'indiquer au moteur de recherche un fichier «sitemap.xml» à la racine du site :

Sitemap: http://www.gladir.com/sitemap.xml

Cet exemple, d'un fichier «robots.txt» situé à la racine du site «http://www.gladir.com/robots.txt», permet d'indiquer deux fichiers à inclure au moteur de recherche du fichier «sitemap.xml» :

Sitemap: http://www.gladir.com/sitemap.xml
Sitemap: http://www.gladir.com/CODER/PHP/sitemap.xml

Cet exemple permet d'indiquer à tous les moteurs de recherche d'indexer le dossier image du site :

User-agent: *
Disallow: /images/

L'exemple suivant permet d'interdire tous le contenu de ce nom de domaine à tous les moteurs de recherche :

User-agent: *
Disallow: /

Cet exemple permet d'interdire le répertoire principal au moteur de recherche «VoilaBot» :

User-Agent: VoilaBot
Disallow: /
User-Agent: *

L'exemple suivant permet d'indiquer au moteur de recherche Yahoo!, Bing, Yandex de n'attendre 5 que secondes entre chaque appel de page :

User-agent: *
Crawl-delay: 5

Légende

Cette couleur permet d'indiquer que se paramètre n'est pas reconnu par tous les moteurs de recherche.

Voir également

HTML - Référence des balises - META
Articles - URL (Uniform Resource Locator)

Références

Référencement de votre site Web : Google et autres moteurs de recherche, Seconde Edition, Edition EDI, Marie Prat, Mars 2009, ISBN: 978-2-7460-4773-0, page 163 à 166
La Bible Micro Application HTML & Développement Web, Edition Micro Application, Stefan Munz, Wolfgang Nefzger, 2003, ISBN: 2-7429-2898-7, page 1414 à 1416

PARTAGER CETTE PAGE SUR

Dernière mise à jour : Lundi, le 3 août 2015

	Fichiers sans extension

	.COM : Exécutables de commandes populaires
	.conf : Fichiers de configurations
	.DLL : Bibliothèques de lien dynamiques populaires
	.EXE : Exécutables populaires
	.ini : Fichiers d'initialisation
	.nls : Fichiers de langue national
	.SYS : Fichiers systèmes populaires et de leur syntaxe
	.txt : Fichiers de configurations

Section courante

A propos

Section administrative du site