Как заставить wget игнорировать robots.txt

Я частенько пользуюсь утилитой wget, чтобы скачивать сайты, но по-умолчанию, она реагирует на robots.txt — по этому специальному урлу многие файлы размещают информацию для работов, wget тоже воспринимает эти инструкции на свой счёт.

Например, сайт может запретить роботам ходить по своим страницам, тогда wget откажется скачивать такой сайт. Чтобы попросить его наплевать на эти инструкции, нужно запустить его со следующим параметром:

wget -e robots=off url-который-надо-скачать
Поделиться
Отправить
2013  
6 комментариев
Максим Зотов (maxim-zotov.livejournal.com)

А зачем -e? Лучше уж сразу добавить в ~/.wgetrc строчку
robots = off

Евгений Степанищев (bolknote.ru)

Комментарий для maxim-zotov.livejournal.com:

Не лучше, ситуации разные бывают. Общий пользователь где-то, консоль, куда доступ хозяева дали временно и так далее.

Евгений Степанищев (bolknote.ru)

Комментарий для maxim-zotov.livejournal.com:

Скрипты автоматизации, опять же.

Orcinus Orca (www.orcinus.ru)

Кстати, да. У меня файл с CSS попал в такую запрещённую директорию, надо бы вызволить оттуда бедный файлик.

wis

Спасибо огромное!

Serge

Все равно ловлю 403: Forbidden. чего только не крутил.
Перешел на offline explorer

Популярное