¿Cómo puedo descargar todas las páginas de un sitio web?
Cualquier plataforma está bien.
HTTRACK funciona como un campeón para copiar el contenido de un sitio completo. Esta herramienta puede incluso agarrar las piezas necesarias para hacer que un sitio web con contenido de código activo funcione sin conexión. Estoy sorprendido de las cosas que puede replicar sin conexión.
Este programa hará todo lo que necesites de él.
¡Feliz cacería!
Wget es una herramienta clásica de línea de comandos para este tipo de tarea. Viene con la mayoría de los sistemas Unix/Linux, y puede obtenerlo para Windows también. En una Mac, Homebrew es la forma más fácil de instalarlo (brew install wget
).
Harías algo como:
wget -r --no-parent http://site.com/songs/
Para obtener más detalles, consulte Manual de Wget y sus ejemplos o, por ejemplo, estas:
Utilice wget:
wget -m -p -E -k www.example.com
Las opciones explicadas:
-m, --mirror Turns on recursion and time-stamping, sets infinite
recursion depth, and keeps FTP directory listings.
-p, --page-requisites Get all images, etc. needed to display HTML page.
-E, --adjust-extension Save HTML/CSS files with .html/.css extensions.
-k, --convert-links Make links in downloaded HTML point to local files.
Internet Download Manager tiene una utilidad Site Grabber con muchas opciones, que le permite descargar completamente cualquier sitio web que desee, de la forma que lo desee.
Puede establecer el límite en el tamaño de las páginas/archivos para descargar
Puede establecer el número de sitios de sucursales para visitar
Puede cambiar la forma en que se comportan los scripts/ventanas emergentes/duplicados
Puede especificar un dominio, solo bajo ese dominio se descargarán todas las páginas/archivos que cumplan con la configuración requerida
Los enlaces se pueden convertir en enlaces sin conexión para navegar
Tienes plantillas que te permiten elegir la configuración anterior para ti.
Sin embargo, el software no es gratuito; vea si se ajusta a sus necesidades, use la versión de evaluación.
Deberías echar un vistazo a ScrapBook , una extensión de Firefox. Tiene un modo de captura en profundidad .
itsucks- ¡ese es el nombre del programa!
Me ocuparé del búfer en línea que usan los navegadores ...
Por lo general, la mayoría de los navegadores usan un caché de navegación para mantener los archivos que descarga de un sitio web durante un tiempo, de modo que no tenga que descargar imágenes estáticas y contenido una y otra vez. Esto puede acelerar un poco las cosas en algunas circunstancias. En términos generales, la mayoría de las cachés de los navegadores están limitadas a un tamaño fijo y cuando alcanza ese límite, eliminará los archivos más antiguos de la caché.
Los ISP tienden a tener servidores de almacenamiento en caché que mantienen copias de los sitios web a los que se accede comúnmente, como ESPN y CNN. Esto les ahorra la molestia de visitar estos sitios cada vez que alguien en su red va allí. Esto puede significar un ahorro significativo en la cantidad de solicitudes duplicadas a sitios externos al ISP.
Me gusta Offline Explorer .
Es un shareware, pero es muy bueno y fácil de usar.
No he hecho esto en muchos años, pero todavía hay algunas utilidades por ahí. Es posible que desee probar Web Snake . Creo que lo usé hace años. Recordé el nombre de inmediato cuando leí tu pregunta.
Estoy de acuerdo con Stecy. Por favor, no martille su sitio. Muy mal.
WebZip es un buen producto también.
Para Linux y OS X: escribí grab-site para archivar sitios web completos en WARC files. Estos archivos WARC pueden ser explorados o extraídos. grab-site le permite controlar qué URL omitir mediante el uso de expresiones regulares, y se pueden cambiar cuando se está ejecutando el rastreo. También viene con un extenso conjunto de valores predeterminados para ignorar las URL no deseadas.
Hay un panel de control web para monitorear los rastreos, así como opciones adicionales para omitir el contenido del video o las respuestas en un tamaño determinado.
DownThemAll es un complemento de Firefox que descargará todo el contenido (archivos de audio o video, por ejemplo) para una página web en particular con un solo clic. Esto no descarga el sitio completo, pero esto puede ser algo que la pregunta estaba buscando.
Teleport Pro es otra solución gratuita que copiará todos y cada uno de los archivos de lo que sea su objetivo (también tiene una versión de pago que le permitirá extraer más páginas de contenido).
Probar BackStreet Browser .
Es un navegador en línea gratuito, potente. Un programa de descarga y visualización de sitios web de subprocesos múltiples de alta velocidad. Al realizar múltiples solicitudes simultáneas al servidor, BackStreet Browser puede descargar rápidamente todo el sitio web o parte de un sitio, incluidos HTML, gráficos, applets de Java, sonido y otros archivos definibles por el usuario, y guardar todos los archivos en su disco duro, ya sea en su formato nativo. o como un archivo comprimido Zip y ver sin conexión.
El venerableFreeDownloadManager.orgtambién tiene esta característica.
Free Download Manager lo tiene en dos formas en dos formas: Site Explorer y Site Spider :
Site Explorer
Site Explorer le permite ver la estructura de carpetas de un sitio web y descargar fácilmente los archivos o carpetas necesarios.
HTML Spider
Puede descargar páginas web completas o incluso sitios web completos con HTML Spider. La herramienta se puede ajustar para descargar archivos con extensiones específicas solamente.
Considero que Site Explorer es útil para ver qué carpetas incluir/excluir antes de intentar descargar todo el sitio, especialmente cuando hay un foro completo oculto en el sitio que no desea descargar, por ejemplo.
Si bien wget ya se mencionó este recurso y la línea de comando fue tan perfecta que pensé que merecía una mención: wget -P /path/to/destination/directory/ -mpck --user-agent="" -e robots=off --wait 1 -E https://www.example.com/