Пишу, по большей части, про историю, свою жизнь и немного про программирование.

Избыточность интернета и поиск в интранете

Все, вероятно, знают, что интернет очень избыточен — одни и те же документы, мысли, советы и так далее могут располагаться, в зависимости от популярности, на огромном количестве ресурсов. Одно и то же повторяется сотни, тысячи и сотни тысяч раз.

Наверное, многие веб-мастера думали — было бы здорово чтобы один и тот же документ всегда лежал по одному и тому же адресу. Ссылки бы не устаревали (а авторские права всегда соблюдались). В своём маленьком мирке это воплотила «Ярушечка» — там можно не копировать, а цитировать чей-либо пост и источник сразу будет виден.

Конечно избыточность в интернете полезна. Про первую причину многие знают: избыточность позволяет бороться с реальностью, а в реальности сервера падают, сайты закрываются, потому и хорошо, что документы могут оказаться на альтернативных сайтах.

Но есть и вторая причина. До неё я додумался, когда стал анализировать почему поиск в нашем интранете меня не устраивает. Ожидаемо (правда?) что для поиска по документам, рассылками и прочему во внутренней сети у нас используется поисковик «Яндекса». Но я обратил внимание, что качество поиска куда ниже ожидаемого мной. В чём же дело?

Дело, как вы уже, наверное, догадались в избыточности. Из-за богатства нашего языка, в независимости от того, видел я этот документ раньше или ищу что-то незнакомое (например, совет по проблеме) существует огромное количество формулировок для моего запроса. Спасает избыточность — велика вероятность, что мой запрос присутствует в интернете во множестве различных вариаций. Конечно, это не всегда так (если я ищу что-то редкое), но это так с большой вероятностью.

В интранете всё не так, тут элементарно меньше народу и выше упорядоченность. Меньше избыточности, меньше объём, поэтому запрос приходится формировать очень точно, ключевые слова приходится перебирать чаще. Очевидно, что и качество поиска от этого страдает. Т. е. для интранета, где своя специфика, нужен собственный поисковик.

11 комментариев
muxa-ru.livejournal.com 2009

В своём маленьком мирке это воплотила «Ярушечка» — там можно не копировать, а цитировать чей-либо пост и источник сразу будет виден.

А что будет если автор цитируемого постинга изменит его?

little-red-monster.ya.ru 2009

цитата остается прежней.
значит — дублируется, т. е. та же избыточность.

Евгений Степанищев (bolknote.ru) 2009

Комментарий для little-red-monster.ya.ru:

Да, пожалуй. Тут частичное решение.

Евгений Степанищев (bolknote.ru) 2009

Странно, что молчит начальник транспортного цеха.

little-red-monster.ya.ru 2009

Комментарий для Евгения Степанищева:

он же уже не при делах

little-red-monster.ya.ru 2009

Комментарий для Евгения Степанищева:

он же уже не при делах

Евгений Степанищев (bolknote.ru) 2009

Комментарий для little-red-monster.ya.ru:

Я Коломейца имел ввиду.

arikon (sergeybelov.ru) 2009

Комментарий для Евгения Степанищева:

Улучшить поиск по интранету можно, дав пользователю инструмент для переформулировки запроса мышкой.

Евгений Степанищев (bolknote.ru) 2009

Комментарий для sergeybelov.ru:

Переформулировки? Что этот инструмент должен делать? Мне кажется, улучшить поиск можно решив проблему низкой избыточности — построить по запросу пользователя ещё и альтернативные запросы и попробовать поискать их. Искать связанную информацию и предоставлять её пользователю и прочее.

Вообще базы знаний (KB) должны были уже решить большую часть этих проблем.

arikon (sergeybelov.ru) 2009

Комментарий для Евгения Степанищева:

Этот инструмент должен помогать пользователю уточнять запрос. В качестве более-менее подходящего примера можно рассматривать Яндекс.Маркет и его поиск по параметрам. А помогать он должен примерно так: если результатов очень много — подсказывать, как сузить выборку. Если результатов нет — давать точку выхода туда, где есть (или может быть) ответ на заданный запрос.

Евгений Степанищев (bolknote.ru) 2009

Комментарий для sergeybelov.ru:

То есть исправление проблемы предполагается переложить на плечи пользователя. Не айс.