Пишу, по большей части, про историю, свою жизнь и немного про программирование.

Как заставить wget игнорировать robots.txt

Я частенько пользуюсь утилитой wget, чтобы скачивать сайты, но по-умолчанию, она реагирует на robots.txt — по этому специальному урлу многие файлы размещают информацию для работов, wget тоже воспринимает эти инструкции на свой счёт.

Например, сайт может запретить роботам ходить по своим страницам, тогда wget откажется скачивать такой сайт. Чтобы попросить его наплевать на эти инструкции, нужно запустить его со следующим параметром:

wget -e robots=off url-который-надо-скачать
6 комментариев
Максим Зотов (maxim-zotov.livejournal.com) 2013

А зачем -e? Лучше уж сразу добавить в ~/.wgetrc строчку
robots = off

Евгений Степанищев (bolknote.ru) 2013

Комментарий для maxim-zotov.livejournal.com:

Не лучше, ситуации разные бывают. Общий пользователь где-то, консоль, куда доступ хозяева дали временно и так далее.

Евгений Степанищев (bolknote.ru) 2013

Комментарий для maxim-zotov.livejournal.com:

Скрипты автоматизации, опять же.

Orcinus Orca (www.orcinus.ru) 2013

Кстати, да. У меня файл с CSS попал в такую запрещённую директорию, надо бы вызволить оттуда бедный файлик.

wis 2013

Спасибо огромное!

Serge 2016

Все равно ловлю 403: Forbidden. чего только не крутил.
Перешел на offline explorer