it-swarm-es.com

¿Cómo produzco un sándwich pdf de varias páginas con hocr2pdf?

Utilicé tesseract para producir el html especial para usar con hocr2pdf a partir de un tif de varias páginas.

Intenté usar hoc2pdf para producir un "sandwich sandwich" (imagen + capa de texto oculto).

Hocr2pdf produce un pdf de una página con todas las páginas superpuestas.

¿Hay alguna manera de resolver este problema o una solución alternativa?

6
To Do

Encontré una solución a este problema. Hocr2pdf tiene problemas con la producción de archivos PDF de varias páginas, por lo que produje tifs de una sola página, ejecuté tesseract-ocr, ejecuté hocr2pdf y luego combiné los resultados con el siguiente script:

for f in ./*.tif; do
   tesseract "$f" "$f" -l fra hocr
   hocr2pdf -i "$f" -s -o "$f.pdf" < "$f.html"
done
pdftk *.tif.pdf cat output "output.pdf" && rm *.tif.pdf && rm *.tif.html
2
To Do