Skip to main content

Скачивание сайта с помощью wget

Для сохранения всего сайта с помощью wget с вложенностью до 7 уровня используйте следующую команду:

 

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --level=7 -P ./local_copy http://example.com

Параметры команды:

    --mirror — включает режим зеркалирования (эквивалентен флагам -r -N -l inf --no-remove-listing).
    --convert-links — преобразует ссылки на локальные.
    --adjust-extension — добавляет правильное расширение для сохранённых файлов (например, .html).
    --page-requisites — скачивает все файлы, необходимые для отображения страницы (например, изображения, CSS, JavaScript).
    --no-parent — предотвращает переход на уровни выше указанного URL.
    --level=7 — ограничивает глубину рекурсии 7 уровнями.
    -P ./local_copy — указывает директорию для сохранения сайта локально (./local_copy).

Пример для реального сайта:

wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --level=7 -P ./local_copy https://example.com

Замечания:

    Ограничения сайта: Убедитесь, что сайт не блокирует автоматическое скачивание, чтобы избежать бана IP.
    Файлы robots.txt: Если сайт ограничивает доступ к некоторым страницам с помощью файла robots.txt, добавьте флаг -e robots=off:

wget -e robots=off --mirror --convert-links --adjust-extension --page-requisites --no-parent --level=7 -P ./local_copy http://example.com

    Большие сайты: Для крупных сайтов скачивание может занять много времени и пространства на диске.

После завершения процесса сохранённый сайт будет находиться в директории ./local_copy.