it-swarm-es.com

¿Cómo detectar los robots de los motores de búsqueda de manera confiable dentro del sitio web asp.net?

¿Cuál es la mejor manera de detectar actividad generada por bot (clics/visitas a la página), etc. en un sitio web asp.net? Tenemos un sitio web donde hacemos un seguimiento de los clientes potenciales generados a sitios web externos, hacemos un seguimiento de la IP del usuario que genera el cliente potencial, sin embargo, estamos viendo muchos clientes potenciales generados por Google y otros robots de búsqueda. ¿Cuál es la mejor manera de filtrar esta actividad? He oído hablar de probar las cadenas de agente de usuario y el filtrado en función de las direcciones IP conocidas, tanto disponibles como volcados de datos de varias fuentes, no estoy seguro de cuál es el mejor para usar.

Gracias.

2
user1081

Como @Kinopiko dijo, Bots, especialmente los mejores como Google, o Bing dejan un claro UserAgent.

No sé cómo se ve su código, así que no puedo decirle qué hacer, pero para encontrar el UserAgent en Asp.Net, consulte Request.UserAgent en cualquier WebForm, CodeBehind o MVC Controller.

2
Sruly

Lo siento, pero no tengo idea acerca de los sitios web asp.net, pero cualquier motor de búsqueda acreditado le enviará una cadena de agente de usuario que le indica que es un bot, y que debería estar disponible en su archivo de registro. Otro regalo es que buscan /robots.txt.

Mi corrector se ve así (Perl):

sub is_bot
{
    my ($user_agent) = @_;
    if ($user_agent =~
    /msnbot
        |www\.cuil\.com
    |Yahoo!\s+Slurp
    |Googlebot
    |Speedy\sSpider
    |MLBot
    |princeton crawler
    |accelobot
    |crawler\@dotnetdotcom
    |help\.naver\.com
    |GingerCrawler
    |Sosospider
    |www.exabot.com
    |Baiduspider
    |Ask\sJeeves
    |Java\/
    |telehouse\.ru
    |Tagoobot
    |Baypup
    |SimilarPages
    |Spinn3r
    |VoilaBot
    |Yandex
    |Xenu\sLink\sSleuth
    |www\.searchme\.com
    |MJ12bot
    |kilomonkey\.com
    |Mediapartners-Google
    |Sogou\sweb\sspider
    |YoudaoBot
    |seexie\.com
    |Yahoo.*Slurp
    |YahooCacheSystem
    |crawler\@nutch\.biz
    |psbot
    |ia_archiver-web\.archive\.org
    |sbider
    |xrss\.eu
    |scoutjet
        |www\.puritysearch\.net
        |Bing
        |BaiduImagespider
        |baidu\.jp
        |facebookexternalhit
        |ssllabs\.com
        |Python-urllib
        |drupal\.org
        |HTTrack
        |Willow\s+Internet\s+Crawler\s+by\s+Twotrees
    /x) {
    return 1;
    }
    return;
}

Si busca en el código fuente de awstats, encontrará algo mejor que lo anterior.

0
delete