it-swarm-es.com

¿Cómo se configura el archivo robots.txt para permitir el rastreo del sitio a excepción de algunos directorios?

¿Cuál es la mejor configuración inicial o general para el archivo robots.txt para permitir que los motores de búsqueda recorran el sitio, pero tal vez restrinjan algunas carpetas?

¿Existe una configuración general que siempre debe usarse?

7
Mike

Las herramientas para webmasters de Google tienen una sección llamada "Acceso de rastreadores"

Esta sección le permite crear fácilmente su archivo robots.txt

Por ejemplo, para permitir todo, excepto el blog, una carpeta llamada probar su robot.txt se vería algo así

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

La mejor configuración, si no tiene requisitos especiales, no es nada. (Aunque al menos es posible que desee agregar un archivo en blanco para evitar que los 404 llenen sus registros de errores).

Para bloquear un directorio en el sitio, use la cláusula 'Disallow':

User-agent: *
Disallow: /example/

También hay una cláusula 'Permitir' que anula las cláusulas anteriores 'No permitir'. Por lo tanto, si no ha permitido la carpeta 'ejemplo', es posible que desee permitir una carpeta como 'ejemplo/foobar'.

Recuerde que robots.txt no impide que nadie visite esas páginas si así lo desea, por lo que si algunas páginas deben permanecer en secreto, debe ocultarlas detrás de algún tipo de autenticación (es decir, un nombre de usuario/contraseña).

La otra directiva que probablemente esté en muchos archivos robots.txt es 'Mapa del sitio', que especifica la ubicación de su mapa del sitio XML si tiene uno. Póngalo en una línea por sí mismo:

Sitemap: /sitemap.xml

El sitio oficial de robots.txt tiene mucha más información sobre las diversas opciones. Pero en general, la gran mayoría de los sitios necesitarán muy poca configuración.

1
DisgruntledGoat

Aquí está todo lo que necesita saber sobre el archivo robots.txt

0
Jason