it-swarm-es.com

¿Control sobre el archivo de Internet además de "Disallow /"?

¿Existen mecanismos para controlar lo que archiva Internet Archive en un sitio? Sé no permitir todas las páginas podría agregar :

User-agent: ia_archiver
Disallow: /
  1. ¿Puedo decirle al bot que quiero que rastree mi sitio una vez al mes o una vez al año?

  2. Tengo un sitio/páginas que no/no se archivan correctamente debido a los activos no recogidos. ¿Hay alguna manera de decirle al bot de Internet Archive qué activos necesita si va a tomar el sitio?

13
artlung

Nota : Esta respuesta está cada vez más desactualizada.

El mayor contribuyente a la colección web de Internet Archive ha sido Alexa Internet. El material que Alexa rastrea para sus propósitos ha sido donado a IA unos meses más tarde. Agregar la regla de rechazo mencionada en la pregunta no afecta esos rastreos, pero el Wayback los honrará 'retroactivamente' (denegando el acceso, el material seguirá estando en el archivo; debe excluir el robot de Alexa si realmente desea mantener su material fuera) del Archivo de Internet).

Puede haber formas de afectar los rastreos de Alexa, pero no estoy familiarizado con eso.

Desde que IA desarrolló su propio rastreador (Heritrix), comenzaron a realizar sus propios rastreos, pero estos tienden a ser rastreos específicos (rastrean las elecciones para la Biblioteca del Congreso y han realizado rastreos nacionales para Francia y Australia, etc.). No participan en el tipo de rastreos sostenidos a escala mundial que realizan Google y Alexa. El rastreo más grande de IA fue un proyecto especial para rastrear 2 mil millones de páginas.

Como estos rastreos se operan en horarios que se derivan de factores específicos del proyecto, no puede afectar la frecuencia con la que visitan su sitio o si visitan su sitio.

La única forma de afectar directamente cómo y cuándo IA rastrea su sitio es usar su servicio Archive-It . Ese servicio le permite especificar rastreos personalizados. Los datos resultantes se incorporarán (eventualmente) a la colección web de IA. Sin embargo, este es un servicio de suscripción pagado .

8
Kris

La mayoría de los motores de búsqueda admiten la directiva "Crawl-delay", pero no sé si IA sí. Sin embargo, puedes probarlo:

User-agent: ia_archiver
Crawl-delay: 3600

Esto limitaría el retraso entre solicitudes a 3600 segundos (es decir, 1 hora), o ~ 700 solicitudes por mes.

No creo que sea posible el n. ° 2: el bot de IA toma los activos como y cuando lo considera conveniente. Puede tener un límite de tamaño de archivo para evitar el uso de demasiado almacenamiento.

2
DisgruntledGoat