Пишу, по большей части, про историю, свою жизнь и немного про программирование.

Яндекс.Картинки: поиск изображений

Понятно как «Яндекс.Картинки» индексируют изображения — индексируется текст в тегах. Не знаю, возможно есть какие-то хитрые правила для привязки надписей вокруг изображения к самому изображению, но я их пока не выявил. Тыкая на случайные изображения в поиске, я неизменно обнаруживал, что поиск производится по текстовой информации внутри самого тега.

Помимо текстового языка запроса, «Яндекс.Картинки» умеют искать по определённым параметрам: преобладающему цвету и размеру, позволяя пользователю определить эти параметры через специальные инструменты.

Что можно сделать. Если человек ищет «цветы» показывать ему всё, что содержит слово «цветы», если ищет «красные цветы» — показывать всё, что содержит слова «красные» и «цветы», а так же «цветы», в картинках которых преобладающий цвет — красный. Так же можно поступать и с запросами «большое изображение Моны Лизы» или «пиктограмма знака стоп».

22 комментария
zorgg.blogspot.com 2008

Очень похоже, что гугль ищет по тексту «вокруг».

denbl (denbl.ya.ru) 2008

Комментарий для zorgg.blogspot.com:

Так и делает. Впрочем, как и Яндекс — в этом совсем не сложно убедиться.

Евгений Степанищев (bolknote.ru) 2008

Комментарий для denbl.ya.ru:

Например? Я не увидел таких случаев (т. е. я не отрицаю, что они могут быть, просто хочется примера).

m-ivanov.livejournal.com 2008

...умеют искать по определённым параметрам...
Что можно сделать.

Я не понял... Из первой фразы следует, что яндекс действительно так делает, а из второй — что так можно было бы сделать, но сейчас не сделано.

denbl (denbl.ya.ru) 2008

Комментарий для Евгения Степанищева:

Например, так — http://images.yandex.ru/yandsearch?p=21%26reqtime=1213795644%26text=%D0%B7%D0%B5%D0%BB%D0%B5%D0%BD%D1%8B%D0%B9%20%D0%B1%D0%BE%D0%B3%D0%B0%D1%82%D1%8B%D1%80%D1%8C%26rpt=simage

Кстати, зачетная листалка релевантных картинок. Только нифига не интуитивная для рядового пользователя.

Евгений Степанищев (bolknote.ru) 2008

Комментарий для denbl.ya.ru:

О, спасибо, теперь вижу!

Евгений Степанищев (bolknote.ru) 2008

Комментарий для m-ivanov.livejournal.com:

Всё, поправил, действительно, было непонятно.

stanishevsky.livejournal.com 2008

Почему бы элементарно не засовывать все картинки в OCR? Таким образом можно было бы получить огромный пласт релевантных изображений, которые сейчас практически никак не проиндексированы.

Евгений Степанищев (bolknote.ru) 2008

Комментарий для stanishevsky.livejournal.com:

Текст на них распознавать? Подозреваю, что по двум причинам:

1) картинок с текстом очень мало
2) при этом затраты на распознавание огромны, как финансовые (для покупки или написания этого софта), так и машинные (OCR очень неспешно работает)

Az (shitdesign.ru) 2008

идеальным вариантом был бы анализ цвета в RGB-палитре.
есть десктопные программы, предназначенные для поиска дубликатов изображений, они так и работают.

zencd.livejournal.com 2008

Комментарий для shitdesign.ru:

И что эта техника даст — «Яндекс.ПоискДубликатов»?

Az (shitdesign.ru) 2008

Комментарий для zencd.livejournal.com:

нет, это к тому, что результат там выдается на основе анализа палитры изображения. если Яндекс будет искать также — то и выдача будет точнее, чем по контексту.

zencd.livejournal.com 2008

Комментарий для shitdesign.ru:

Раскройте подробности — как алгоритм нахождения дубликатов изображений может помочь найти что-то кроме дубликатов? (Что-то новое.) Я не очень представляю.

И потом — те десктопные программы сопоставляют две картинки, веб-поиск же — картинку и текст. Ну и как «уточнять выдачу» — из слов «выжимать» RGB?

Евгений Степанищев (bolknote.ru) 2008

Комментарий для shitdesign.ru:

Идея в том, чтобы отсекать дубликаты в поиске?

denbl (denbl.ya.ru) 2008

Комментарий для zencd.livejournal.com:

Помочь может очень просто — исключение из выдачи дубликатов позволяет на одной странице отобразить больше различных вариантов, то есть сделать ее информативнее.

Возможно, технологически сделать это сложно, но инструмент был бы крайне полезен. Правда он не должен стать полным аналогом &rd=0 в основной выдаче, так как запрос может быть нацелен на поиск дубликатов одной и той же картинки только в разном качестве (например, поиск обложки к альбому или картины). То есть инструмент должен быть крайне гибким и «понимать» смысл запроса.

Ну и поиск с учетом систем меток Смирнова http://nudnik.ru/entry/3573 тоже стал бы killer фичей.

zencd.livejournal.com 2008

Комментарий для denbl.ya.ru:

О! Исключение дубликатов рулит :-). Часто они попадаются…
Цветовой хэш снять с пикчи просто, добавить в поисковый индекс ещё один аттрибут — тоже. Сложностей не вижу…

Евгений Степанищев (bolknote.ru) 2008

Комментарий для denbl.ya.ru:

Ряд Фурье, распределие Стъюдента, метка Смирнова…

Az (shitdesign.ru) 2008

Комментарий для zencd.livejournal.com:

наверно неправильно объяснил… я имел ввиду, что поиск изображения по его цветовой гамме был бы точнее, если бы использовался анализ его гаммы, чем анализ слов вокруг.

Aresfromolimp.livejournal.com 2008

Женя, скажи там, чтобы поиск видео в яндексе сделали, ато порнуху неудобно искать.

Евгений Степанищев (bolknote.ru) 2008

Комментарий для aresfromolimp.livejournal.com:

http://alltheweb.com/

TheIVAart.myopenid.com 2010

Моему возмущению нет приделов!
Яша ищет по тексту который рядом с картинкой и даже в тегах span и div.
Это какой-то кошмар! Я считаю что поиск картинок должен осуществляться только по тегу alt.
А программисты и те кто заполняют контентом сайт, должны исправно его заполнять.

Если код такой: <p><img class=»...» src=»...» alt=«Логотип Яндекса«>Один из логотипов</p>.
ТО искать картинку нужно по словам «Логотип» и «Яндекса» а не по: Один, из, логотипов.
ИМХО

lokogirl (lokogirl.livejournal.com) 2012

Всегда подписываю свои картинки в теге alt. Заметила, что в мой блог часто заходят люди с поиска по картинкам.