it-swarm-es.com

¿Cómo ocultar el archivo robots.txt de los usuarios?

Como se puede encontrar robots.txt:

site.com/robots.txt

todos pueden verlo, incluso las personas que piensan mal.

¿Cómo puedo ocultar el archivo robots.txt de todos excepto los robots de búsqueda?

2
Murad

Puedes encontrar una solución aquí:

http://forums.ukwebmasterworld.com/threads/hide-your-robots-txt-from-visitors-and-show-it-only-for-validated-robots.7256/

Esto bloqueará el archivo robots.txt de todos, excepto googlebot, Yahoo Slurp y msnbot.

Pero de nuevo, ¿por qué querrías ocultarlo? Está perfectamente bien mantener accesibles los archivos robots.txt.

Casi todos los sitios web tienen un robot.txt accesible para todos. Incluso puede ver el robot.txt de wikipedia aquí: https://en.wikipedia.org/robots.txt

3
A squared

No puede, el robots.txt está destinado a ser de acceso público. Si desea ocultar contenido en su sitio, no debe intentar hacerlo con robots.txt, simplemente proteja con contraseña los directorios confidenciales usando .htaccess o similar.

3
Seth Warburton

Robots.txt y Google

También estoy posicionado negativamente contra el archivo robots.txt. No me gusta anunciar públicamente el árbol de directorios de mis sitios de Joomla.

Teniendo en cuenta los cambios recientes en los algoritmos de Google, que ahora están buscando archivos de imágenes, CSS y JS, con el fin de obtener y renderizar completamente una página web, estoy buscando formas de permitir que los robots de Google lleguen a los archivos necesarios que componen un página web, mientras que al mismo tiempo podrá ocultar de los bots cualquier cosa que no deba indexarse.

Joomla

En esta dirección, las versiones recientes de Joomla se envían con un archivo robots.txt actualizado, que permite a los robots rastrear las imágenes y los archivos multimedia.

Sin embargo, en la mayoría de los sitios de Joomla, existen más de 1 ubicaciones donde pueden existir esos archivos: no es solo la plantilla o la carpeta de medios y la carpeta de imágenes, sino que también puede ser un módulo o una carpeta de complementos, y sin embargo, es es posible que no todos los contenidos de la carpeta multimedia estén disponibles para el rastreo.

Encabezado HTTP X-Robots-Tag - .htaccess y servidores web Apache

Una forma alternativa que estoy experimentando actualmente y eventualmente quiero hacer mi implementación estándar, es usar el encabezado HTTP X-Robots-Tag , en un esfuerzo por Evite completamente el uso del archivo robots.txt.

Podemos agregar cualquier tipo de directivas de metaetiquetas de robots con la etiqueta X-Robots dentro de los archivos .htaccess, y los archivos .htaccess se pueden colocar en el directorio raíz, lo que tendrá un efecto global en todo el sitio, pero también podemos colocar ellos usan cualquier directorio secundario del sitio.

Ejemplo 1: X-Robots-Tag para no permitir la indexación de PDF y archivos GIF en todo el sitio:

.htaccess en el directorio raíz:

<Files ~ "\.(pdf|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>


Ejemplo 2: X-Robots-Tag para no permitir la indexación de un directorio específico: :

.htaccess dentro de ese directorio

 Header set x-robots-tag "noindex"

Esto agregará la etiqueta X-Robots sin índice en los encabezados de respuesta HTTP de las páginas dentro de este directorio:

Response Headers: X-Robots-Tag

Con el uso de expresiones regulares podemos lograr la máxima flexibilidad al especificar todo tipo de directivas.


Recursos utiles:

Documentación de Google Webmasters: metaetiquetas de robots y especificaciones de encabezado HTTP X-Robots-Tag.

3
FFrewin