Скачивание сайта с помощью wget
Для сохранения всего сайта с помощью wget с вложенностью до 7 уровня используйте следующую команду:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --level=7 -P ./local_copy http://example.com
Параметры команды:
--mirror — включает режим зеркалирования (эквивалентен флагам -r -N -l inf --no-remove-listing).
--convert-links — преобразует ссылки на локальные.
--adjust-extension — добавляет правильное расширение для сохранённых файлов (например, .html).
--page-requisites — скачивает все файлы, необходимые для отображения страницы (например, изображения, CSS, JavaScript).
--no-parent — предотвращает переход на уровни выше указанного URL.
--level=7 — ограничивает глубину рекурсии 7 уровнями.
-P ./local_copy — указывает директорию для сохранения сайта локально (./local_copy).
Пример для реального сайта:
wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --level=7 -P ./local_copy https://example.com
Замечания:
Ограничения сайта: Убедитесь, что сайт не блокирует автоматическое скачивание, чтобы избежать бана IP.
Файлы robots.txt: Если сайт ограничивает доступ к некоторым страницам с помощью файла robots.txt, добавьте флаг -e robots=off:
wget -e robots=off --mirror --convert-links --adjust-extension --page-requisites --no-parent --level=7 -P ./local_copy http://example.com
Большие сайты: Для крупных сайтов скачивание может занять много времени и пространства на диске.
После завершения процесса сохранённый сайт будет находиться в директории ./local_copy.