User-agent: * # aplicable a todos
Disallow: / # impide la indexacion de todas las paginas
En cuanto a la colocación del archivo robots.txt, solo puede haber uno en cada sitio web, precisamente en el directorio raiz
Un robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo allí.
Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas
El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber líneas en blanco.
Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot a que dichas directivas se refieren. Siempre tiene que existir este campo
A continuación pondremos una o mas directivas Disallow: .
Aquí tienes algún ejemplo. Nota que el signo # señala que la línea que le sigue es un comentario, y no será leída:
# Establecemos total libertad para webcrawler
# Ya que dejamos Disallow vacio
User-agent: webcrawler
Disallow:
# En cambio lycra y BadBot
# tiene prohibido integramente el acceso
User-agent: lycra
User-agent: BadBot
Disallow: /
# El resto de bots (señalado mediante *)
# tiene prohibido el acceso a los directorios
# /tmp y /log; libertad para el resto.
User-agent: *
Disallow: /tmp
Disallow: /logs
Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.
Mediante las directivas "Disallow" especificamos los directorios o archivos concretos que deseamos excluir. Por ejemplo:
Disallow: /help # afecta a /help.html y a /help/index.html
Disallow: /help/ # afecta a /help/index.html pero no a /help.html.
Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio indicamos que no contiene restricción ninguna.
Hay que tener en cuenta que en la directiva Disallow no se admiten comodines. /help/* no serviría (el equivalente sería /help).