Blog gratis
Reportar
Editar
¡Crea tu blog!
Compartir
¡Sorpréndeme!
BUSCADORES
Aquí pueden encontrar material sobre buscadores, tipos, su funcionamiento algunas harramientas, etc. Ingresen por los TOPICOS para ver cada uno de los temas.
Sobre mí
FOTO

Sistemas de Computación

HERRAMIENTAS DE INTERNET

Ver perfil

Buscador
Blog   Web
Tópicos
Arquitectura de un buscador (1)
Definición (2)
El archivo Robotstxt (1)
Funcionamiento de un buscador (1)
Meta Tag (1)
Métodos de búsquedas por parte del usuario (1)
Optimizar sitios Web para los buscadores (1)
Robots y etiquetas META (1)
Sugerencias para optimizar el posicionamiento (4)
Tipos de buscadores (5)
Trust Rank TR y Page Rank PR (1)
Visit-time (1)
Calendario
Ver mes anterior Marzo 2017 Ver mes siguiente
DOLUMAMIJUVISA
1234
567891011
12131415161718
19202122232425
262728293031
//09 de Octubre, 2007

Uso de Robots.txt

por buscadores a las 16:07, en Definición

Cuando un robot visita una página, por ejemplo http://www.ignside.net/, lo primero que solicita al servidor es el archivo http://www.ignside.net/robots.txt.

Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio web.

El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas.

En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:

User-agent: *    # aplicable a todos

Disallow: /      # impide la indexacion de todas las paginas

En cuanto a la colocación del archivo robots.txt, solo puede haber uno en cada sitio web, precisamente en el directorio raiz

Un robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo allí.

Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas

El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber líneas en blanco.

Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot a que dichas directivas se refieren. Siempre tiene que existir este campo

A continuación pondremos una o mas directivas Disallow: .
Aquí tienes algún ejemplo. Nota que el signo # señala que la línea que le sigue es un comentario, y no será leída:

# Establecemos total libertad para webcrawler

# Ya que dejamos Disallow vacio

User-agent: webcrawler

Disallow:

# En cambio lycra y BadBot

# tiene prohibido integramente el acceso

User-agent: lycra

User-agent: BadBot

Disallow: /

# El resto de bots (señalado mediante *)

# tiene prohibido el acceso a los directorios

# /tmp y /log; libertad para el resto.

User-agent: *

Disallow: /tmp

Disallow: /logs

Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.

Mediante las directivas "Disallow" especificamos los directorios o archivos concretos que deseamos excluir. Por ejemplo:

Disallow: /help  # afecta a /help.html y a  /help/index.html

Disallow: /help/ # afecta a /help/index.html  pero no a  /help.html.

Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio indicamos que no contiene restricción ninguna.

Hay que tener en cuenta que en la directiva Disallow no se admiten comodines. /help/* no serviría (el equivalente sería /help).

 

 

Palabras claves , , , ,
Sin comentarios  ·  Recomendar
 
Más sobre este tema ·  Participar
Comentarios (0) ·  Enviar comentario
Enviar comentario

Nombre:

E-Mail (no será publicado):

Sitio Web (opcional):

Recordar mis datos.
Escriba el código que visualiza en la imagen Escriba el código [Regenerar]:
Formato de texto permitido: <b>Negrita</b>, <i>Cursiva</i>, <u>Subrayado</u>,
<li>· Lista</li>
FULLServices Network | Blog profesional | Privacidad