Это сайт — моя персональная записная книжка. Интересна мне, по большей части, история, своя жизнь и немного программирование.

Прибытие поезда на вокзал Ла-Сьота

Помню когда я получал высшее в 90-е, специализация «Искусственный интеллект» была самая осмеиваемая среди студентов, расхожая шутка тех времён — что туда шли те, у кого естественного интеллекта не было. Эта область тогда и правда выглядела сомнительно, не могла похвастаться какими-то интересными практическими результатами, да и идти работать по специализации было просто некуда, разве что оставаться в Университете, заниматься наукой.

Чисто теоретически мы наверное все понимали перспективность направления, но перспектива рисовалась очень уж отдалённой. Но вот прошло двадцать лет и всё изменилось — одна из самых востребованных областей, передний край, масса интересных практических результатов, понятных любому обывателю.

Меня увлекает многое из того, что делается на этом поприще, но почему-то больше всего то, что можно увидеть глазами — вычислительная фотография, реставрация фильмов и так далее.

Вот и мимо восстановленного алгоритмами машинного обучения самого знаменитого фильма — «Прибытие поезда на вокзал Ла-Сьота» братьев Люмьер (1896 год) я пройти не смог. Найдите на Ютубе оригинал и посмотрите из чего нейросети смогли сделать 60 кадров в секунду и 4К-картинку!

Нас ждёт удивительное будущее!

6 комментариев
Johan 2020

Ваш пост про вычислительную фотографию был написан в 2012-м с предположением «лет 10 осталось». До сих пор смартфон, выпущенный в 20-м, не выдает картинку, хоть как-то сравнимую с фотоаппаратом производства 2010-го (если только, конечно, не сравнивать на крошечном экранчике самого смартфона).

Более того, сами фотоаппараты с 2010-го года по сути отличаются только формой корпуса...

Потому что «сопромат не @#$%^шь» и физику не обманешь. От «вычислительной фотографии» пищат в восторге только малолетние прыщавые девочки, потому что «вау, авторетушь» или прыщавые (предположение) великовозрастные мальчики, потому что «вау, мы сдвинули матрицу на субпиксель и вытащили красный и синий сигнал из зеленого».

Это направление могла бы продвинуть порноиндустрия, но там тоже (за нередким, конечно, исключением) никому не нужны «нарисованные мультики».

Так что поиграются с инстамасочками и дипфейками пару лет, как в свое время с «Фотошопом», а потом всё встанет на свои места. «Когда у тебя в руке молоток — всё вокруг кажется гвоздями» — это только поначалу.

Евгений Степанищев 2020

Ваш довольно ядовитый комментарий противоречит моей реальности. Потому что в 2010-м я носил с собой везде зеркалку, а сейчас вообще никуда её не беру — фотографирую исключительно смартфоном.

Потому что «сопромат не @#$%^шь» и физику не обманешь.

Вы, кажется, совершенно не поняли сути того, что я тогда писал. Всё равно какая матрица и оптика, ИИ научится (уже научился — посмотрите на «Прибытие поезда…») рисовать фотографию на основе того, что есть, этого будет достаточно, больше уже ничего не нужно.

Из этого правила единственное исключение — страховые доски на домах фотографировал зеркалкой, так как там нужно было хорошее увеличение. Там где важна буквальность, вычислительной фотографии делать нечего.

PastorGL 2020

Пожалуй, соглашусь с желчным тоном предыдущего оратора.

ML в его современном виде (который «а внутре у ней нейронка») не годится толком ни для чего, кроме кривоватого дорисовывания текстур по образцу.

Во всём остальном результаты несколько разочаровывают (из практики, не голословно). Покуда нейронки не понимают смысла того, что они делают, а просто производят очень продвинутый pattern matching -> pattern generation, никакого удивительного будущего не наступит. Но киношки с давно мёртвыми актёрами мы будем смотреть часто.

Евгений Степанищев 2020

А, к примеру, беспилотные такси тоже разочаровывают? Или вот распознавание речи? Оцифровка печатного текста (там нейросети обгоняют те алгоритмы, которые были до)?

PastorGL 2020

Так это всё то же самое, задачи одинаковой прагматики и сложности. Прогресса в них давно нет, просто железо стало настолько быстрым и дешёвым, что можно пускать хоть на дверном звонке.

BTW, один из моих университетских преподов ещё в конце 1980-х защищал кандидатскую по нейронке, натренированной на распознавание рукописных цифр. Вот тогда это было ново.

Евгений Степанищев 2020

BTW, один из моих университетских преподов ещё в конце 1980-х защищал кандидатскую по нейронке, натренированной на распознавание рукописных цифр.

И где она, нейронка, распознающая рукописные цифры?

Sergey 2020

А что вы скажите на счет такого применения нейронок? Разве в 80-ых мы могли о таком даже подумать? Качество картинки просто крышу сносит:
https://www.thispersondoesnotexist.com/

или вот примеры deep fakes, которые очень непросто отличить от настоящих:
https://www.youtube.com/watch?v=-QvIX3cY4lc

Johan 2020

Sergey «крышу сносит» там только от разных глаз, ресниц не на своих местах и прочих диких артефактов. Нормальный ретушер (даже не художник) сделает такую картинку часа за 3-4, но в качестве, пригодном для печати 30x40.

Пока эти ваши «внутре у ней нейронка» прячут свои ошибки под артефактами сжатия, как хозяйки под майонезом, — ничего интересного. Просто компьютер, как всегда, быстрее человека (даже можно вспомнить происхождение самого термина «компьютер»).

В общем, для распознавания контента вполне ок (но помним историю с той велосепидисткой, которая за 2 секунды 10 раз была то «ТС в полосе», то «неопознанным объектом», а оно даже не оттомозилось).
Для генерации контента — только если инстаграм. Потому что... Ну потому что никто еще не показал ничего выше 4K (а это 12 мегапикселей). Упсс.

Евгений Степанищев 2020

Ну послушайте, у меня половина картинок в блоге так или иначе сильно дорисованы нейросетями, вы хоть раз это вообще замечали? Даже в этом посте обе картинки — дорисованы, убраны лишние предметы из кадра, часть мусора, перетянуты цвета. Скажите, вы можете мне указать где на картинках это сделано (но учите, что на кадре с выключателем мыльный угол — это не оно, так при съёмке получилось)?

PastorGL 2020

И где она, нейронка, распознающая рукописные цифры?

Стоит спросить у ABBYY. Помнится, нет несколько назад они писали в каком-то из блогов пост о проекте распознавания заполненных вручную формуляров (сейчас найти его совершенно невозможно), который делали конкретно для кого-то, но не выкатывали на широкую публику из-за ряда проблем.

А проблемы с нейронками, которые возникли ещё тогда, в 1980-х, так и не решены. Они по-прежнему видят в полном мусоре, то, что обучены видеть, и всё ещё не могут отличить по контексту кошку от собаки, а курсивную восьмёрку от курсивного же знака бесконечности. Человек это делает не напрягаясь, но до сложности wetware эмулируемым нейронкам всё ещё как до луны пешком. Типичный нейрон в мозгу соединяется с тысячами других нейронов нелинейным образом и связями с различной скоростью срабатывания, и железо ещё нескоро сможет добраться до эмуляции такого уровня связности.

Более простые модели теперь работают действительно быстро, да. Но это всё дурилки картонные, работающие по принципу чёрного ящика, нельзя объяснить, почему они выдают результат, который выдают.

И да, последние новости от гугла про разработку нейронки, которая может объяснить, *почему* она приняла определённое решение, не вызывают доверия.

Евгений Степанищев 2020

Стоит спросить у ABBYY. Помнится, нет несколько назад они писали в каком-то из блогов пост о проекте распознавания заполненных вручную формуляров (сейчас найти его совершенно невозможно), который делали конкретно для кого-то, но не выкатывали на широкую публику из-за ряда проблем.

Никто так и не умеет нормально распознавать рукописный русский текст. До сих пор. Так что я бы спросил того университетского препода что он там защищал.

…и всё ещё не могут отличить по контексту кошку от собаки, а курсивную восьмёрку от курсивного же знака бесконечности.

Если контекст подаётся в нейросеть, то у меня есть сомнения, что не смогут. Некоторые изображения нейросети уже распознают лучше людей.

Но это всё дурилки картонные, работающие по принципу чёрного ящика, нельзя объяснить, почему они выдают результат, который выдают.

А человек может?

И да, последние новости от гугла про разработку нейронки, которая может объяснить, *почему* она приняла определённое решение, не вызывают доверия.

По какой причине?