Aquí pueden encontrar material sobre buscadores, tipos, su funcionamiento algunas harramientas, etc. Ingresen por los TOPICOS para ver cada uno de los temas.

Sobre mí

Sistemas de Computación

HERRAMIENTAS DE INTERNET

▪ Ver perfil

Buscador

Blog Web

Tópicos

▪ Arquitectura de un buscador (1)

▪ Definición (2)

▪ El archivo Robotstxt (1)

▪ Funcionamiento de un buscador (1)

▪ Meta Tag (1)

▪ Métodos de búsquedas por parte del usuario (1)

▪ Optimizar sitios Web para los buscadores (1)

▪ Robots y etiquetas META (1)

▪ Sugerencias para optimizar el posicionamiento (4)

▪ Tipos de buscadores (5)

▪ Trust Rank TR y Page Rank PR (1)

▪ Visit-time (1)

Calendario

Abril 2025

« Blog

« Robots y etiquetas META

//09 de Octubre, 2007

Uso de Robots.txt

por buscadores a las 16:07, en Definición

Cuando un robot visita una página, por ejemplo http://www.ignside.net/, lo primero que solicita al servidor es el archivo http://www.ignside.net/robots.txt.

Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio web.

El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas.

En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:

User-agent: * # aplicable a todos

Disallow: / # impide la indexacion de todas las paginas

En cuanto a la colocación del archivo robots.txt, solo puede haber uno en cada sitio web, precisamente en el directorio raiz

Un robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo allí.

Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas

El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber líneas en blanco.

Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot a que dichas directivas se refieren. Siempre tiene que existir este campo

A continuación pondremos una o mas directivas Disallow: .
Aquí tienes algún ejemplo. Nota que el signo # señala que la línea que le sigue es un comentario, y no será leída:

# Establecemos total libertad para webcrawler

# Ya que dejamos Disallow vacio

User-agent: webcrawler

Disallow:

# En cambio lycra y BadBot

# tiene prohibido integramente el acceso

User-agent: lycra

User-agent: BadBot

Disallow: /

# El resto de bots (señalado mediante *)

# tiene prohibido el acceso a los directorios

# /tmp y /log; libertad para el resto.

User-agent: *

Disallow: /tmp

Disallow: /logs

Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.

Mediante las directivas "Disallow" especificamos los directorios o archivos concretos que deseamos excluir. Por ejemplo:

Disallow: /help # afecta a /help.html y a /help/index.html

Disallow: /help/ # afecta a /help/index.html pero no a /help.html.

Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio indicamos que no contiene restricción ninguna.

Hay que tener en cuenta que en la directiva Disallow no se admiten comodines. /help/* no serviría (el equivalente sería /help).

disallow, robots, txt, user, agent

Sin comentarios · Recomendar

Más sobre este tema · Participar

· ¿Qué es un buscador?

Comentarios (0) · Enviar comentario

FULLServices Network | Blog profesional | Privacidad