Яндекс.Картинки: поиск изображений

Понятно как «Яндекс.Картинки» индексируют изображения — индексируется текст в тегах. Не знаю, возможно есть какие-то хитрые правила для привязки надписей вокруг изображения к самому изображению, но я их пока не выявил. Тыкая на случайные изображения в поиске, я неизменно обнаруживал, что поиск производится по текстовой информации внутри самого тега.

Помимо текстового языка запроса, «Яндекс.Картинки» умеют искать по определённым параметрам: преобладающему цвету и размеру, позволяя пользователю определить эти параметры через специальные инструменты.

Что можно сделать. Если человек ищет «цветы» показывать ему всё, что содержит слово «цветы», если ищет «красные цветы» — показывать всё, что содержит слова «красные» и «цветы», а так же «цветы», в картинках которых преобладающий цвет — красный. Так же можно поступать и с запросами «большое изображение Моны Лизы» или «пиктограмма знака стоп».
18 июня 2008 15:05

zorgg.blogspot.com (zorgg.blogspot.com)
18 июня 2008, 15:14

Очень похоже, что гугль ищет по тексту "вокруг".

denbl (denbl.ya.ru)
18 июня 2008, 15:47, ответ предназначен zorgg.blogspot.com:

Так и делает. Впрочем, как и Яндекс — в этом совсем не сложно убедиться.

bolk (bolknote.ru)
18 июня 2008, 16:13, ответ предназначен denbl (denbl.ya.ru):

Например? Я не увидел таких случаев (т.е. я не отрицаю, что они могут быть, просто хочется примера).

m-ivanov.livejournal.com (m-ivanov.livejournal.com)
18 июня 2008, 16:19

...умеют искать по определённым параметрам...
Что можно сделать.
Я не понял... Из первой фразы следует, что яндекс действительно так делает, а из второй - что так можно было бы сделать, но сейчас не сделано.

denbl (denbl.ya.ru)
18 июня 2008, 16:30, ответ предназначен bolk (bolknote.ru):

Например, так — http://images.yandex.ru/yandsearch?p=21&reqtime=1213795644&text=%D0%B7%D0%B5%D0%BB%D0%B5%D0%BD%D1%8B%D0%B9%20%D0%B1%D0%BE%D0%B3%D0%B0%D1%82%D1%8B%D1%80%D1%8C&rpt=simage

Кстати, зачетная листалка релевантных картинок. Только нифига не интуитивная для рядового пользователя.

bolk (bolknote.ru)
18 июня 2008, 18:06, ответ предназначен denbl (denbl.ya.ru):

О, спасибо, теперь вижу!

bolk (bolknote.ru)
18 июня 2008, 18:08, ответ предназначен m-ivanov.livejournal.com:

Всё, поправил, действительно, было непонятно.

stanishevsky.livejournal.com (stanishevsky.livejournal.com)
18 июня 2008, 22:24

Почему бы элементарно не засовывать все картинки в OCR? Таким образом можно было бы получить огромный пласт релевантных изображений, которые сейчас практически никак не проиндексированы.

bolk (bolknote.ru)
19 июня 2008, 08:49, ответ предназначен stanishevsky.livejournal.com:

Текст на них распознавать? Подозреваю, что по двум причинам:

1) картинок с текстом очень мало
2) при этом затраты на распознавание огромны, как финансовые (для покупки или написания этого софта), так и машинные (OCR очень неспешно работает)

Az (shitdesign.ru)
19 июня 2008, 10:45

идеальным вариантом был бы анализ цвета в RGB-палитре.
есть десктопные программы, предназначенные для поиска дубликатов изображений, они так и работают.

zencd.livejournal.com (zencd.livejournal.com)
19 июня 2008, 12:36, ответ предназначен Az (shitdesign.ru):

И что эта техника даст — «Яндекс.ПоискДубликатов»?

Az (shitdesign.ru)
19 июня 2008, 15:44, ответ предназначен zencd.livejournal.com:

нет, это к тому, что результат там выдается на основе анализа палитры изображения. если Яндекс будет искать также - то и выдача будет точнее, чем по контексту.

zencd.livejournal.com (zencd.livejournal.com)
19 июня 2008, 21:06, ответ предназначен Az (shitdesign.ru):

Раскройте подробности — как алгоритм нахождения дубликатов изображений может помочь найти что-то кроме дубликатов? (Что-то новое.) Я не очень представляю.

И потом — те десктопные программы сопоставляют две картинки, веб-поиск же — картинку и текст. Ну и как «уточнять выдачу» — из слов «выжимать» RGB?

bolk (bolknote.ru)
20 июня 2008, 09:01, ответ предназначен Az (shitdesign.ru):

Идея в том, чтобы отсекать дубликаты в поиске?

denbl (denbl.ya.ru)
20 июня 2008, 11:46, ответ предназначен zencd.livejournal.com:

Помочь может очень просто — исключение из выдачи дубликатов позволяет на одной странице отобразить больше различных вариантов, то есть сделать ее информативнее.

Возможно, технологически сделать это сложно, но инструмент был бы крайне полезен. Правда он не должен стать полным аналогом &rd=0 в основной выдаче, так как запрос может быть нацелен на поиск дубликатов одной и той же картинки только в разном качестве (например, поиск обложки к альбому или картины). То есть инструмент должен быть крайне гибким и "понимать" смысл запроса.

Ну и поиск с учетом систем меток Смирнова http://nudnik.ru/entry/3573 тоже стал бы killer фичей.

zencd.livejournal.com (zencd.livejournal.com)
20 июня 2008, 13:49, ответ предназначен denbl (denbl.ya.ru):

О! Исключение дубликатов рулит :-). Часто они попадаются…
Цветовой хэш снять с пикчи просто, добавить в поисковый индекс ещё один аттрибут — тоже. Сложностей не вижу…

bolk (bolknote.ru)
20 июня 2008, 14:25, ответ предназначен denbl (denbl.ya.ru):

Ряд Фурье, распределие Стъюдента, метка Смирнова…

Az (shitdesign.ru)
21 июня 2008, 22:22, ответ предназначен zencd.livejournal.com:

наверно неправильно объяснил… я имел ввиду, что поиск изображения по его цветовой гамме был бы точнее, если бы использовался анализ его гаммы, чем анализ слов вокруг.

Aresfromolimp.livejournal.com (Aresfromolimp.livejournal.com)
24 июня 2008, 23:55

Женя, скажи там, чтобы поиск видео в яндексе сделали, ато порнуху неудобно искать.

bolk (bolknote.ru)
25 июня 2008, 11:30, ответ предназначен aresfromolimp.livejournal.com:

http://alltheweb.com/

TheIVAart.myopenid.com (TheIVAart.myopenid.com)
5 апреля 2010, 00:37

Моему возмущению нет приделов!
Яша ищет по тексту который рядом с картинкой и даже в тегах span и div.
Это какой-то кошмар! Я считаю что поиск картинок должен осуществляться только по тегу alt.
А программисты и те кто заполняют контентом сайт, должны исправно его заполнять.

Если код такой: <p><img class="..." src="..." alt="Логотип Яндекса">Один из логотипов</p>.
ТО искать картинку нужно по словам "Логотип" и "Яндекса" а не по: Один, из, логотипов.
ИМХО

lokogirl (lokogirl.livejournal.com)
23 декабря 2012, 11:16

Всегда подписываю свои картинки в теге alt. Заметила, что в мой блог часто заходят люди с поиска по картинкам.

Ваше имя или адрес блога (можно OpenID):

Текст вашего комментария, не HTML:

Кому бы вы хотели ответить (или кликните на его аватару)