it-swarm-es.com

¿Existe un índice de las direcciones IP utilizadas por los robots de indexación?

Tengo una página que recibe un tráfico mínimo, pero configuro notificaciones estáticas cuando recibe un golpe. Ahora, quiero que los bots sean ignorados, así que lo que estoy haciendo ahora es agregar los bots que veo a una lista de "no notificar".

¿Existe una lista de referencia de las direcciones IP utilizadas por los robots de indexación?

por ejemplo, una lista como:

$no_mail = array(
    '67.195.115.105', // yahoo bot
    '207.46.199.50', // msn bot
    '61.135.249.246', //youdao bot
    '207.46.199.32', // msn bot
);
7
artlung

http://www.user-agents.org/ podría ser lo que estás buscando.

5

Todos los motores de búsqueda usan una gran cantidad de direcciones IP. En su lugar, querrá ver la cadena de agente de usuario. Consulte esta página para obtener una buena lista de todos los rastreadores.

En PHP, algo como esto funcionaría:

$bots = array( 'googlebot', 'msnbot', 'Slurp', 'mediapartners-google' );
$isRobot = false;
$ua = strtolower( $_SERVER['HTTP_USER_AGENT'] );

foreach ( $bots as $bot ) {
  if ( strpos( $ua, $bot ) !== false )
    $isRobot = true;
}

if ( !$isRobot ) {
  // do your thing
}
2
DisgruntledGoat

¿Por qué no pones esto en tu archivo robots.txt?

User-agent: *
Disallow: /path/page-you-dont-want-crawled.html

De esa manera no necesitarás seguir buscando bots. Apostaría cualquier cosa a que Google, Yahoo y MSN tienen cientos de bots y probablemente tienen diferentes direcciones IP y se crean nuevas todo el tiempo. Agregar lo anterior debería hacer lo mismo para su página de archivo sin toda la molestia.

1
Ben Hoffman

Hay algún código para reconocer los bots en http://ekstreme.com/phplabs/search-engine-authentication (así como el artículo del Centro de ayuda de Google en http://www.google .com/support/webmasters/bin/answer.py? answer = 8055 sobre la verificación de Googlebot). También hay algo de código en http://ekstreme.com/phplabs/crawlercontroller.php que puede usarse para reconocer a los rastreadores, que puede extender fácilmente para reconocer a los "buenos" rastreadores y a los no deseados lo reconoce ahora.

En general, es importante no confiar solo en el nombre del agente de usuario o en la dirección IP, ya que algunos agentes de usuario pueden ser utilizados por usuarios normales y algunas direcciones IP pueden compartirse.

Dicho esto, si solo está usando esto para notificaciones por correo electrónico, probablemente ignore los patrones simples conocidos en el agente de usuario y viva con los falsos positivos y falsos negativos. Verifique en sus archivos de registro los rastreadores más comunes que están activos en su sitio y solo verifique una parte única del nombre del agente de usuario (puede ser suficiente con usar "googlebot | Slurp | msnbot | bingbot").

1
John Mueller

De una forma u otra, si te tomas en serio el filtrado de bots, también necesitarás implementar alguna lista local. A veces, las IP aparentemente al azar se obsesionan con un sitio web que estoy administrando. Proyectos universitarios, bots mal implementados que parecen experimentales pero no son generalmente reconocidos, ese tipo de cosas.

Además: el Cuil bot (Twiceler) es el diablo.

1
Thomas

¿Se puede acceder al agente de uso? Eso me parece una mejor manera de averiguar quién es un usuario real y qué es un bot: es más resistente a los rastreadores legítimos que cambian de dirección, y si algo se hace pasar por un bot, probablemente no quieras recibir el correo electrónico de todas formas.

0
Cebjyre

Prueba esto...

$UI_Agent = $_SERVER['HTTP_USER_AGENT'];

if(eregi("bot", $UI_Agent)) {
    // do your bot stuff here
}

HTH, Bud

0
Bud