it-swarm-es.com

Bloquear todos los motores de búsqueda, excepto los grandes.

Me gustaría poder bloquear de alguna manera todos los motores de búsqueda, excepto Google, Yahoo y Bing (y sus sitios relacionados como Google Images) para que no rastreen mi sitio, ya que consumen mucho servidor y ancho de banda, pero no generan tráfico.

¿Esto se hace fácilmente o es difícil? Sería bueno que alguien mantuviera una lista de pequeños motores de búsqueda que pudieran pegarse en un archivo robots.txt para bloquearlos.

Además, me doy cuenta de que no puedo bloquear a los rastreadores que ignoran el archivo robots.txt o los sitios de manera clandestina, pero eso no es lo que quiero. Solo quiero bloquear a todos los Altavistas, Hotbots, Lycos (¿aún existen?) Y los rastreadores de experimentos universitarios no pierdan mi tiempo.

2
Craig

¿Qué has intentado hasta ahora?

Usando el herramientas de webmaster generador de robots.txt Hice esto:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Pero no lo he probado.

3
delete

¿Qué tan grande es realmente un problema?

Los bots que deberían preocuparte son los bots que no siguen las reglas y que fingen ser visitantes habituales.

El tráfico del motor de búsqueda es legítimo y, como señaló Dan, Google también comenzó como un pequeño proyecto universitario. No es realmente justo discriminar a los chicos pequeños, y posiblemente no sea inteligente a la larga.

La respuesta de Kinopiko funcionará, y las herramientas para webmasters de Google le permitirán crear y probar su robot.txt (configuración del sitio, acceso del rastreador), pero creo que si el tráfico de los motores de búsqueda genuinos es un problema para usted, puede ser que su alojamiento actual La solución no es un buen negocio.

3
Sylver

Para aquellos que no siguen las reglas, puede intentar encontrarlos en sus registros y luego bloquearlos por IP.

En general, puedes detectar un bot por el hecho de que lee las páginas demasiado rápido para ser humano.

1
Sruly