it-swarm-es.com

¿Los motores de búsqueda rastrean archivos PDF? De ser así, ¿hay alguna regla que seguir al hacerlos?

El sitio web en el que estoy trabajando tiene algunos cientos de archivos PDF. No creo haber visto a ninguno de ellos volver en una búsqueda, pero están vinculados directamente desde nuestro sitio. También están llenas de palabras clave porque son documentos de productos.

¿Hay algo especial que debamos hacer para que Google u otros motores de búsqueda los rastreen?

¿Existe alguna regla estricta y rápida para crear archivos PDF para ayudar a Google a que les guste más? Por ejemplo, ¿debería ejecutarlos a través de ghostscript para limpiar las etiquetas PDF rotas que Adobe crea durante la generación?

22
Ben Hoffman

Google definitivamente indexa PDF archivos y puede buscar solo PDF archivos agregando filetype:pdf a su consulta de búsqueda ( ejemplo ).

Diría que las principales cosas que hacer para optimizar un PDF para que se indexe fácilmente serían:

  • Dale un nombre de archivo significativo
  • Complete todas las propiedades de metadatos del documento (título, autor, palabras clave, etc.)
  • Asegúrese de que su PDF esté compuesto de texto real y no de imágenes escaneadas
  • Asegúrese de tener un buen contenido con el uso correcto de los encabezados, tal como lo haría con un documento HTML

Para obtener más sugerencias, lea Optimización PDF Documentos y Once sugerencias para optimizar archivos PDF para motores de búsqueda

17
Dan Diplo

No estoy seguro acerca de otros motores de búsqueda, pero en lo que respecta a Google, la regla principal sería no excluirlos a través de robots.txt

Esto fue su anuncio inicial de apoyar PDF búsqueda.

1
intlect

Al igual que hacer que un sitio web sea compatible no puede dañar con su SEO, hacer que su PDF accesible no pueda dañar. El comprobador de accesibilidad incorporado de Adobe está lejos de ser perfecto, pero al menos arreglar esas áreas lo ayudará a comenzar.

Probablemente dedico 5 minutos a cada 4 o 5, principalmente PDF de texto que ponemos en línea. El tiempo aumenta de manera uniforme dependiendo del número de páginas y de lo complejas que sean esas páginas.

Suponiendo que tiene Adobe Acrobat Pro para hacer su edición:

  • Ejecute una verificación completa de accesibilidad. (La verificación rápida no tiene sentido para mí)
  • Actualice la metainformación en las propiedades del documento (palabras clave, asunto, idioma, etc.)
  • Asegúrese de agregar etiquetas
  • Asegúrese de que el texto esté etiquetado como texto, imágenes como imágenes, material de fondo como fondo
  • Etiquete pelusas inútiles (como decoración o diseño) como fondo
  • Agregue buen texto alternativo a las imágenes
  • Asegúrese de que en el orden de lectura, el texto esté ordenado correctamente
  • En la barra de herramientas de contenido, asegúrese de que el texto no esté duplicado o mal traducido
  • Use el escáner OCR en páginas escaneadas

Para una edición más avanzada, como tablas y errores de Adobe realmente extraños, utilizamos un complemento llamado CommonLook. CommonLook hace el trabajo, pero lo odio casi tanto como odio las herramientas de Adobe.

Familiarícese con la herramienta Retocar orden de lectura, la barra de herramientas Etiquetas, la barra de herramientas Orden de lectura y la barra de herramientas Contenido. Mi trabajo requiere documentos totalmente conformes antes de salir a la web, pero cualquiera podría beneficiarse de algunas propiedades simples de etiquetado y documentos.

1
MrChrister