Как заставить wget игнорировать robots.txt
Я частенько пользуюсь утилитой wget, чтобы скачивать сайты, но по-умолчанию, она реагирует на robots.txt — по этому специальному урлу многие файлы размещают информацию для работов, wget тоже воспринимает эти инструкции на свой счёт.
Например, сайт может запретить роботам ходить по своим страницам, тогда wget откажется скачивать такой сайт. Чтобы попросить его наплевать на эти инструкции, нужно запустить его со следующим параметром:
wget -e robots=off url-который-надо-скачать
А зачем -e? Лучше уж сразу добавить в ~/.wgetrc строчку
robots = off
Комментарий для maxim-zotov.livejournal.com:
Не лучше, ситуации разные бывают. Общий пользователь где-то, консоль, куда доступ хозяева дали временно и так далее.
Комментарий для maxim-zotov.livejournal.com:
Скрипты автоматизации, опять же.
Кстати, да. У меня файл с CSS попал в такую запрещённую директорию, надо бы вызволить оттуда бедный файлик.
Спасибо огромное!
Все равно ловлю 403: Forbidden. чего только не крутил.
Перешел на offline explorer