Пишу, по большей части, про историю, свою жизнь и немного про программирование.

Договориться с нейросетью

Нас так долго учили общаться с компьютерами особым способом, что сейчас многим очень сложно переучиваться на коммуникацию через естественный язык. Как будто бы ничего сложного, но тем не менее многие спотыкаются о свои внутренние модели общения, беспомощно глядя в экран, не зная что делать дальше.

Тем временем с нейросетями можно не только разговаривать почти на любую тему, но даже сговариваться.

Вчера демонстрировал возможности сети ChatGPT своему другу, он задавал ей различные вопросы, на которые она очень ловко отвечала, до тех пор пока он из любопытства не попросил сочинить для него что-нибудь на эротическую тему.

Вот как можно договориться с нейросетью, чтобы обойти фильтры

Надо сказать, что создатели ChatGPT встроили в своё детище автоцензора, который срабатывает на определённых темах, которые создатели считают аморальными — это сейчас очень распространённая практика.

Как видно на моём скриншоте, упоминание эротики привело к самоцензурированию и нейросеть расшаркалась в извинениях — мол, не предназначена она для общения на такие темы.

Мне показалось интересным его как-нибудь обойти. Я исходил из предположения, что автоцензор — это скорее всего какой-нибудь тупенький алгоритм, примотанный сбоку. Всё-таки нейросети ненадёжны и создать внутри них устойчивую цензуру вряд ли удастся. А раз так, то можно попробовать этот тупой алгоритм обмануть, условившись с ChatGPT о языке, где опасные слова будут заменены на что-то другое.

Я приготовился долго экспериментировать, но это оказалось очень легко — просто попросил заменить слово erotic на x-rotic и это сработало.

Сетка тут же поняла, что от неё требуется и начала выдавать текст, пока в её лексике не попалось какое-то другое запрещённое слово, которое мы заменять не договаривались — внутренний цензор тут же встрепенулся и прервал генерацию.

1 комментарий
Erik 2023

похоже эту лазейку они тоже прикрыли. недавно было тоже самое с 2 + 2 = 25, что можно было ее заставить переиначить арифметические операции, но это было также закыто.

Евгений Степанищев 2023

Быстро они… выдастся свободное время, попробую посмотреть что теперь происходит.