«ГигаЧат» и распознавание картинок
Прислали тут новость по сберовской нейросети «ГигаЧат», — теперь она научилась описывать словами изображение. Вообще не удивили, конечно. Нейросети, умеющие такое, существуют лет десять. Но, может, тут какое-то новое качество? Решил особо не миндальничать, загрузить туда какие-нибудь сложные изображения. Например, иллюстрации из заметки про кольцевую горелку от керосинки.


«ГигаЧат» ожидаемо не справился. Я готов согласиться, что горелка керосиновой лампы чем-то напоминает самовар, возможно невнимательный человек мог бы ответить так же, но на таблетку то, что я держу в руке, не похоже никак.
Интересно, что «ГигаЧат» время от времени даёт очень разные описания. Последнюю фотографию я загрузил несколько раз. Один раз он увидел вместо «таблетки» пулю, в другой раз ответил правильно — сказал, что видит «металлическую деталь круглой формы с отверстиями». Как-то сильно его мотает по смыслам.
Ещё смешнее получилось с фотографией дочки, снятой на «Флиппер» из предыдущего поста:

Для интереса и я это изображение попробовал загрузить несколько раз, получил совершенно разные, но одинаково далёкие от реальности результаты.
Я подумал, что можно написать такую же «нейросеть», которая будет в ответ на загруженную картинку генерировать какой-нибудь случайный связный текст цепями Маркова, например.
Но, справедливости ради, более понятные изображения «ГигаЧат» описывает очень неплохо. Вот пример из заметки про «метроном» в китайских боевиках:

ну... с точки зрения машины вполне себе описание фотографии
кожанного мешкачеловекаЧатгпт с первой фотографией справится:
👍 огонь!