Как заставить wget игнорировать robots.txt

Я частенько пользуюсь утилитой wget, чтобы скачивать сайты, но по-умолчанию, она реагирует на robots.txt — по этому специальному урлу многие файлы размещают информацию для работов, wget тоже воспринимает эти инструкции на свой счёт.

Например, сайт может запретить роботам ходить по своим страницам, тогда wget откажется скачивать такой сайт. Чтобы попросить его наплевать на эти инструкции, нужно запустить его со следующим параметром:
wget -e robots=off url-который-надо-скачать
6 апреля 2013 20:46

Максим Зотов (maxim-zotov.livejournal.com)
7 апреля 2013, 00:29

А зачем -e? Лучше уж сразу добавить в ~/.wgetrc строчку
robots = off

Евгений Степанищев (bolknote.ru)
7 апреля 2013, 09:30, ответ предназначен Максим Зотов (maxim-zotov.livejournal.com):

Не лучше, ситуации разные бывают. Общий пользователь где-то, консоль, куда доступ хозяева дали временно и так далее.

Евгений Степанищев (bolknote.ru)
7 апреля 2013, 09:30, ответ предназначен Максим Зотов (maxim-zotov.livejournal.com):

Скрипты автоматизации, опять же.

Orcinus Orca (www.orcinus.ru)
12 апреля 2013, 05:46

Кстати, да. У меня файл с CSS попал в такую запрещённую директорию, надо бы вызволить оттуда бедный файлик.

wis (инкогнито)
25 сентября 2013, 20:49

Спасибо огромное!

Serge (инкогнито)
4 марта 2016, 12:04

Все равно ловлю 403: Forbidden. чего только не крутил.
Перешел на offline explorer

Ваше имя или адрес блога (можно OpenID):

Текст вашего комментария, не HTML:

Кому бы вы хотели ответить (или кликните на его аватару)