it-swarm-es.com

¿Cómo puedo detectar enlaces que apuntan a ocupantes ilegales de dominios?

Sé cómo encontrar enlaces muertos que van a 404 páginas. Sin embargo, en la actualidad, no muchos enlaces en realidad se desactivan, sino que terminan yendo a un okupador de dominio. Me doy cuenta de que esto es una tarea difícil, pero ¿hay alguna manera de averiguar si un sitio web es realmente un okupador de dominios sin ir a cada sitio con mi navegador y examinarlo para ver si hay una foto de una niña con una mochila, etc. .?

4
delete

Posibles métodos de detección para páginas/dominios estacionados:

Encuentra frases basura

Haga una búsqueda que no distinga entre mayúsculas y minúsculas para encontrar frases basura genéricas comunes como "lo que necesita, cuando lo necesita" y "su fuente para prácticamente cualquier cosa".

Encuentra invitaciones para comprar

Busque texto como "preguntar sobre este dominio" y "este dominio puede estar a la venta".

Prueba de 404 en subpáginas aleatorias

Visita testdomain.com/randomstring. Si obtiene un 404, o la página en sí contiene el texto '404' o 'no encontrado', probablemente no esté estacionado.

Prueba de redireccionamientos en subpáginas aleatorias

Otros sistemas de dominio estacionado redirigen testdomain.com/randomstring a testdomain.com.

Busque el nombre de dominio en metaetiquetas

Varias plantillas de dominio estacionado usan el siguiente formato para la metaetiqueta de autor:

<meta name="author" content="Nameofdomain.com" />

Otros lo ponen en la descripción:

<meta name="description" content="nameofdomain.com">

En cada caso, el dominio es la cosa solo en el atributo 'contenido'. Es poco probable que este sea el caso de los sitios activos.

Busque la etiqueta del conjunto de marcos

Algunas plantillas de dominio estacionado usan la etiqueta <frameset> con múltiples marcos internos para extraer contenido externo (a menudo de 'information.com'), pero por lo demás no muestran nada más en la página.

Usa múltiples pruebas

Ninguna de estas pruebas son necesariamente indicadores confiables de un dominio estacionado por sí mismos. Es probable que deba combinar varias pruebas para crear su propio algoritmo, luego probarlo y refinarlo en función de un conjunto de dominios aparcados conocidos y dominios activos conocidos.

2
Nick

Hay cosas que puedes buscar. ¿Es el elemento dominante en la página un iFrame? ¿Es la respuesta un 301/302 que te saca del dominio? (muchos okupas simplemente 302 o 301 a su página de destino). ¿La relación enlace/texto es increíblemente alta?

Diría que es muy difícil, pero eso es al menos algunas características comunes.

También parece haber un proyecto en la página de Wikipedia linkrot que hace referencia a algún proyecto que intenta hacer esto: http://en.wikipedia.org/wiki/Wikipedia_talk:Linkrot - detalles son incompletos sin embargo.

0
Mark Henderson