Яндекс.Картинки: поиск изображений
Понятно как «Яндекс.Картинки» индексируют изображения — индексируется текст в тегах. Не знаю, возможно есть какие-то хитрые правила для привязки надписей вокруг изображения к самому изображению, но я их пока не выявил. Тыкая на случайные изображения в поиске, я неизменно обнаруживал, что поиск производится по текстовой информации внутри самого тега.
Помимо текстового языка запроса, «Яндекс.Картинки» умеют искать по определённым параметрам: преобладающему цвету и размеру, позволяя пользователю определить эти параметры через специальные инструменты.
Что можно сделать. Если человек ищет «цветы» показывать ему всё, что содержит слово «цветы», если ищет «красные цветы» — показывать всё, что содержит слова «красные» и «цветы», а так же «цветы», в картинках которых преобладающий цвет — красный. Так же можно поступать и с запросами «большое изображение Моны Лизы» или «пиктограмма знака стоп».
Очень похоже, что гугль ищет по тексту «вокруг».
Комментарий для zorgg.blogspot.com:
Так и делает. Впрочем, как и Яндекс — в этом совсем не сложно убедиться.
Комментарий для denbl.ya.ru:
Например? Я не увидел таких случаев (т. е. я не отрицаю, что они могут быть, просто хочется примера).
Я не понял... Из первой фразы следует, что яндекс действительно так делает, а из второй — что так можно было бы сделать, но сейчас не сделано.
Комментарий для Евгения Степанищева:
Например, так — http://images.yandex.ru/yandsearch?p=21%26reqtime=1213795644%26text=%D0%B7%D0%B5%D0%BB%D0%B5%D0%BD%D1%8B%D0%B9%20%D0%B1%D0%BE%D0%B3%D0%B0%D1%82%D1%8B%D1%80%D1%8C%26rpt=simage
Кстати, зачетная листалка релевантных картинок. Только нифига не интуитивная для рядового пользователя.
Комментарий для denbl.ya.ru:
О, спасибо, теперь вижу!
Комментарий для m-ivanov.livejournal.com:
Всё, поправил, действительно, было непонятно.
Почему бы элементарно не засовывать все картинки в OCR? Таким образом можно было бы получить огромный пласт релевантных изображений, которые сейчас практически никак не проиндексированы.
Комментарий для stanishevsky.livejournal.com:
Текст на них распознавать? Подозреваю, что по двум причинам:
1) картинок с текстом очень мало
2) при этом затраты на распознавание огромны, как финансовые (для покупки или написания этого софта), так и машинные (OCR очень неспешно работает)
идеальным вариантом был бы анализ цвета в RGB-палитре.
есть десктопные программы, предназначенные для поиска дубликатов изображений, они так и работают.
Комментарий для shitdesign.ru:
И что эта техника даст — «Яндекс.ПоискДубликатов»?
Комментарий для zencd.livejournal.com:
нет, это к тому, что результат там выдается на основе анализа палитры изображения. если Яндекс будет искать также — то и выдача будет точнее, чем по контексту.
Комментарий для shitdesign.ru:
Раскройте подробности — как алгоритм нахождения дубликатов изображений может помочь найти что-то кроме дубликатов? (Что-то новое.) Я не очень представляю.
И потом — те десктопные программы сопоставляют две картинки, веб-поиск же — картинку и текст. Ну и как «уточнять выдачу» — из слов «выжимать» RGB?
Комментарий для shitdesign.ru:
Идея в том, чтобы отсекать дубликаты в поиске?
Комментарий для zencd.livejournal.com:
Помочь может очень просто — исключение из выдачи дубликатов позволяет на одной странице отобразить больше различных вариантов, то есть сделать ее информативнее.
Возможно, технологически сделать это сложно, но инструмент был бы крайне полезен. Правда он не должен стать полным аналогом &rd=0 в основной выдаче, так как запрос может быть нацелен на поиск дубликатов одной и той же картинки только в разном качестве (например, поиск обложки к альбому или картины). То есть инструмент должен быть крайне гибким и «понимать» смысл запроса.
Ну и поиск с учетом систем меток Смирнова http://nudnik.ru/entry/3573 тоже стал бы killer фичей.
Комментарий для denbl.ya.ru:
О! Исключение дубликатов рулит :-). Часто они попадаются…
Цветовой хэш снять с пикчи просто, добавить в поисковый индекс ещё один аттрибут — тоже. Сложностей не вижу…
Комментарий для denbl.ya.ru:
Ряд Фурье, распределие Стъюдента, метка Смирнова…
Комментарий для zencd.livejournal.com:
наверно неправильно объяснил… я имел ввиду, что поиск изображения по его цветовой гамме был бы точнее, если бы использовался анализ его гаммы, чем анализ слов вокруг.
Женя, скажи там, чтобы поиск видео в яндексе сделали, ато порнуху неудобно искать.
Комментарий для aresfromolimp.livejournal.com:
http://alltheweb.com/
Моему возмущению нет приделов!
Яша ищет по тексту который рядом с картинкой и даже в тегах span и div.
Это какой-то кошмар! Я считаю что поиск картинок должен осуществляться только по тегу alt.
А программисты и те кто заполняют контентом сайт, должны исправно его заполнять.
Если код такой: <p><img class=»...» src=»...» alt=«Логотип Яндекса«>Один из логотипов</p>.
ТО искать картинку нужно по словам «Логотип» и «Яндекса» а не по: Один, из, логотипов.
ИМХО
Всегда подписываю свои картинки в теге alt. Заметила, что в мой блог часто заходят люди с поиска по картинкам.