Пишу, по большей части, про историю, свою жизнь и немного про программирование.

АрхиКАПТЧА

Некоторые архивы сейчас выставляют свои фонды в интернет — работать с бумажном документом сложно (с микрофильмами ещё сложнее), кроме того это всё ветшает, выцветает. К сожалению, на этом плюсы «цифры» кончаются, я знаю очень мало архивов, которые, кроме сканирования, ещё и распознали свои архивы.

Отсканировать, да ещё и распознать это всё — огромные деньги (тем более, что есть много рукописных документов, их автоматически не распознать, значит — нужно нанять людей, это ещё бо́льшие деньги).

Мне архивы откровенно жалко, столько информации безвозвратно теряется, а что делать их работники не понимают. Хуже всего, что способ есть, дешёвый, почти бесплатный — добровольцы выстоятся в очередь, только руку протяни.

Для начала, как запустить процесс сканирования документов? Да он уже запущен! Большинство исследователей приходит в архив и платит деньги за то, чтобы им дали скан с какого-либо документа, либо сканируют (фотографируют) его самостоятельно. Всё что нужно — дать интерфейс архивным работникам и исследователям, чтобы этот документ можно было разместить в едином месте и назначить ему реквизиты (фонд, опись, дело, страница и так далее).

Я бы свои документы с удовольствием туда положил, чтобы они не потерялись, если мой диск прикажет долго жить. Можно это всё обвязать социальщиной — лайками, ачивками, комментариями.

С распознаванием не сложнее. Многие знают проект «РеКАПТЧА» по распознаванию текста из книг.

АрхиКАПТЧА (24.24КиБ)

Делаем на логине в наш электронных архив такую же «АрхиКАПТЧу», заставляем людей подтвердить, что они не роботы и распознать пару слов из документа.

Для тех, кто не знает «РеКАПТЧА» работает следующим образом: нужно распознать и ввести два слова, одно из которых системе известно, а второе — нет. Известное используется для проверки, что это не робот пытается войти, неизвестное, в этом и смысл — чтобы человек его распознал. Когда по неизвестному слову накапливается достойная статистика, в качестве верного варианта выбирается то, что чаще всего вводили.

Чтобы роботы не смогли ничего прочесть, в КАПТЧу обычно вводят искажения. В случае архива даже искажать ничего больше не надо — и так всё написано достаточно неразборчиво, роботы пока такое не читают. Например, в моём примере первое слово — «Елисеевъ», второе — «Игнатій».

Можно было бы помочь архивам — взять на себя такой некоммерческий проект, но ведь это где-то хостить надо, такие мощности стоят денег.

Вот бы «Яндексу» этим заняться, на манер гугловского проекта «Книги».

41 комментарий
Denis Ibaev (dionys.moikrug.ru) 2014

Можно просто организовать сбор документов и их расшифровку добровольцами. Это потребует гораздо меньше ресурсов. Достаточно поднять какую-нибудь MediaWiki с плагинами для работы с изображениями.

Евгений Степанищев (bolknote.ru) 2014

Комментарий для dionys.moikrug.ru:

Во-первых, добровольцев надо привлекать, именно это основная проблема (а не технологическая), во-вторых, я не уверен в правовом отношении — кто является владельцем этих документов?

Евгений Степанищев (bolknote.ru) 2014

Комментарий для dionys.moikrug.ru:

Кстати, а где хостить-то такой невероятный объём изображений, раз уж мы про технические вещи заговорили?

hshhhhh (hshhhhh.name) 2014

Комментарий для Евгения Степанищева:

Кстати, а где хостить-то такой невероятный объём изображений, раз уж мы про технические вещи заговорили?

Хостить то ладно, вот с траффиком будут проблемы, но их можно решить при помощи cloudflare. Модная нынче хрень которая за копейку экономит траффик.

Другое дело что я такую архикапчу в жизни не смогу ввести.

Евгений Степанищев (bolknote.ru) 2014

Комментарий для hshhhhh.name:

Другое дело что я такую архикапчу в жизни не смогу ввести

Значит вам и не нужны эти архивы :) Они там целиком так написаны, сотни страниц :)

Denis Ibaev (dionys.moikrug.ru) 2014

Комментарий для Евгения Степанищева:

Понятно, что поначалу работу будут выполнять единицы, и в дальнейшем добровольцев будет не много, но процесс будет идти. Мне кажется, тут важно именно наличие удобного инструмента, а не огромное количество добровольцев.

Документы же, в моём понимании, не подпадают под копирайт. Но этот вопрос надо прорабатывать, да, мне не ясны права архивов на них.

Файлы сейчас можно хранить в облаках, цены там начинаются от 10 центов за гигабайт, и чем больше, тем цена ниже. Но на первых порах, для старта, хватит и обычного хостинга.

Евгений Степанищев (bolknote.ru) 2014

Комментарий для dionys.moikrug.ru:

Понятно, что поначалу работу будут выполнять единицы, и в дальнейшем добровольцев будет не много, но процесс будет идти. Мне кажется, тут важно именно наличие удобного инструмента, а не огромное количество добровольцев.

В чём смысл, хорошего инструмента, если скорость низкая? Ты себе представляешь объём работы? Архивы просто огромные! Это можно сотни лет их распознавать.

Файлы сейчас можно хранить в облаках, цены там начинаются от 10 центов за гигабайт, и чем больше, тем цена ниже. Но на первых порах, для старта, хватит и обычного хостинга.

Мда. Ты правда не понимаешь о каких объёмах речь :) У меня только на винте лежат гигабайты этих архивов, а у меня и десятка дел не наскребётся :)

Например, база «Мемориала» ( http://www.obd-memorial.ru/html/about.htm ) это 13,7 миллионов цифровых копий документов. Это не самая большая база и только один архив. В каждом районе, городе, населённом пункте есть свои архивы.

Denis Ibaev (dionys.moikrug.ru) 2014

Комментарий для Евгения Степанищева:

Я вижу, проблема в том, что ты хочешь сделать всё и сразу. Это было бы здорово, конечно, но неосуществимо без солидной финансовой и технической помощи.

Но есть другой подход — делать большое малыми порциями, так работают все успешные ныне совместные проекты, включая «Википедию». Я вижу эту работу так: ты разобрал для себя пару страниц какого-то дела, выложи скан и его расшифровку. Кому-то понадобится просто результат твоего труда, а кто-то зацепится за него и расшифрует ещё пару страниц. С миру по нитке.

К тому же, я гарантирую, никому (частным лицам) не нужны здесь и сейчас целиком оцифрованные архивы. (Большая часть записей из них вообще, вероятно, никогда не будет востребована.)

Sam Spiridonov (spiridonov.livejournal.com) 2014

Немного оффтоп: а Татарстан еще не выложил свои архивы никуда? А то по моим запросам ничего не нашли и как проверить — непонятно :(

hshhhhh (hshhhhh.name) 2014

Комментарий для Евгения Степанищева:

Значит вам и не нужны эти архивы :) Они там целиком так написаны, сотни страниц :)

Ну так смысл это же капчи в том что оно просто лежит на каком-то сайте чтобы оставить комментарий и я не могу без её разгадыварния это сделать.

Если на каком-то сайте будет эта вот АрхиКапча -​-​ ну его этот сайт.

Denis Ibaev (dionys.moikrug.ru) 2014

Комментарий для spiridonov.livejournal.com:

Немного оффтоп: а Татарстан еще не выложил свои архивы никуда? А то по моим запросам ничего не нашли и как проверить — непонятно

Смотря какие архивы. Закамье, к примеру, относилось к Уфимской губернии, и ревизские сказки по нему находятся в башкирском архиве, и они оцифрованы.

Евгений Степанищев (bolknote.ru) 2014

Комментарий для spiridonov.livejournal.com:

Немного оффтоп: а Татарстан еще не выложил свои архивы никуда? А то по моим запросам ничего не нашли и как проверить — непонятно :(

НА РТ — нет. Но некоторые части Татарстана относились раньше к другим регионам. Например, бугульминский район относился к Татарстану, до этого к Самаре, до этого с Оренбургу, до этого — к Уфе. Соответственно, во всех этих архивах что-то про него есть, у Самары и Уфы даже часть в онлайне.

Евгений Степанищев (bolknote.ru) 2014

Комментарий для hshhhhh.name:

Ну так смысл это же капчи в том что оно просто лежит на каком-то сайте чтобы оставить комментарий и я не могу без её разгадыварния это сделать.
Если на каком-то сайте будет эта вот АрхиКапча — ну его этот сайт.

АрхиКаптча будет на входе в архив. Если кто-то не сможет прочитать что на ней, то не сможет прочитать и архивные документы тоже.

jankkhvej 2014

А как вариант https://www.mturk.com/mturk/welcome не подходит?

Евгений Степанищев (bolknote.ru) 2014

Комментарий для jankkhvej:

А они бесплатно будут работать что ли?

hshhhhh (hshhhhh.name) 2014

Комментарий для Евгения Степанищева:

АрхиКаптча будет на входе в архив. Если кто-то не сможет прочитать что на ней, то не сможет прочитать и архивные документы тоже.

ну в таком случае, учитывая потребность человечества в этих архивах, и правда лучше медавики сделать -​-​ быстрее будет :)

не, идея -​-​ огонь. но не взлетит как мне кажется.

Евгений Степанищев (bolknote.ru) 2014

Комментарий для hshhhhh.name:

Если не толкать, то не взлетит, конечно :)

BOLVERIN 2014

такое делать не выгодно. в этом основная проблема
т. е. теоретически за такое могут взяться поисковые гиганты и корпорации у которых есть излишки ресурса которые простаивают, но которые можно было бы использовать на что-то полезное что потом пригодится
сканы архивов для поиска пригодятся, а вот всяким IBM от них толку нету совсем

Евгений Степанищев (bolknote.ru) 2014

Комментарий для BOLVERIN:

Да какие уж АйБиЭм… Архивам денежка выделяется, некоторым даже в объёме, чтобы хватило оцифровать. Просто это способ более эффективно этот бюджет потратить.

Азат 2014

Половина народа в той же реКапче пишут одно слово, которое проверяется, и вместо второго белиберду или что-нибудь нецензурное.

Тима Люмин 2014

Комментарий для Азат:

Вы, конечно же, неправы, так как во-первых, очень малая часть людей знает, что только одно слово проверяется, во-вторых, не всегда понятно, какое слово проверочное.

иван 2014

Что, еще остались те, кто не понимает, что капча -​-​ зло?

Евгений Степанищев (bolknote.ru) 2014

Комментарий для иван:

Ну назовите это не каптчей что ли. У каптчи другая цель — не пустить робота, тут цель вообще другая — распознать изображение, типа платы за вход, а мимикрирует эта штука под каптчу.

иван 2014

Вебмастер, который ставит такую капчу на сайт -​-​ мудак. С какой стати посетитель должен разбирать чьи-то каракули? Давал ли посетитель на это согласие? Чем ему компенсируется те 5 минут, что он потратил на это говно?

anonymous 2014

Давно хотел спросить: а в чем такая великая ценность архивов? Ну по крайней мере давних, документы которых не вызывают никаких правовых последствий? В чем ценность родословной, если дальше 3-4 поколения анализ ДНК сделать невозможно, а следовательно нельзя гарантировать, что это именно твой предок, даже если по документам все сходится?
По теме: насколько мне известно работу по оцифровке архивов для установления родословных уже довольно давно ведут мормоны (церковь СПД), они ребятишки технические продвинутые и, если они не реализовали такую штуку, то значит эффективность ее была оценена как чрезвычайно низкая.

anonymous 2014

Да и потом, как такую капчу вводить? Хорошо если слово содержит только ер, а если ять или прости господи какую-нибудь ижицу? И вот: буква я произошла от буквы юс малый, но не сразу а постепенно. То есть было множество промежуточных вариантов. Что в таком случае надо вводить?

guest 2014

Я эту архикапчу вообще прочитать не могу. А рекапча достала и вместо распознаваемого слова всегда пишу «fuck».

Инкогнито 2014

Комментарий для Евгения Степанищева:

Тогда лучше игру с ачивментами и корованами сделать.

Григорий 2014

Да мормоны занимаются этим ( https://familysearch.org/indexing/ ). Но и стимула как такового там нет. С какой стати я буду индексировать какие-то куски метрик неизвестного населенного пункта, не зная географии-истории-особенностей этой местности!?
Более рационально и реально как и писал Евгений: каждый исследователь берет нужные ему нас.пункты и семьи и изучает их. Так по крупинке гору разобрать легче и эффективнее. По поводу места — это сотни терабайт изображений — далеко не шутка!

Евгений Степанищев (bolknote.ru) 2014

Комментарий для иван:

Вебмастер, который ставит такую капчу на сайт — мудак. С какой стати посетитель должен разбирать чьи-то каракули? Давал ли посетитель на это согласие? Чем ему компенсируется те 5 минут, что он потратил на это говно?

Доступом к архиву.

Евгений Степанищев (bolknote.ru) 2014

Комментарий для anonymous:

Давно хотел спросить: а в чем такая великая ценность архивов? Ну по крайней мере давних, документы которых не вызывают никаких правовых последствий?

Не знаю. Законы логике не подчиняются же.

В чем ценность родословной, если дальше 3-4 поколения анализ ДНК сделать невозможно, а следовательно нельзя гарантировать, что это именно твой предок, даже если по документам все сходится?

Ну а какая разница — прямое родство или нет? Люди и приёмных родителей считают родителями. Гены и воспитание — то и другое даёт вклад.

По теме: насколько мне известно работу по оцифровке архивов для установления родословных уже довольно давно ведут мормоны (церковь СПД), они ребятишки технические продвинутые и, если они не реализовали такую штуку, то значит эффективность ее была оценена как чрезвычайно низкая.

Или они слишком консервативные.

Да и потом, как такую капчу вводить? Хорошо если слово содержит только ер, а если ять или прости господи какую-нибудь ижицу? И вот: буква я произошла от буквы юс малый, но не сразу а постепенно. То есть было множество промежуточных вариантов. Что в таком случае надо вводить?

Возможно цифровать пока только только определённые года. Если был бы реальный проект — можно было бы что-то придумать, даже не сомневаюсь (хоть наэкранную клавиатуру).

Denis Ibaev (dionys.moikrug.ru) 2014

На WikiMedia Meta, кстати, начали очередную дискуссию о необходимости поддержки одного из генеалогических проектов. Думаю, под покровительством WikiMedia Foundation может что-нибудь этакое получиться. https://meta.wikimedia.org/wiki/Wikimedia_genealogy_project

Vlad Venrigora 2014

А какой предполагаемый объем данных нужно будет хостить?

Евгений Степанищев (bolknote.ru) 2014

Комментарий для Vlad Venrigora:

Давай прикинем на примере какого-нибудь архива. Предположим, что хранить будем только один размер файлов (для настоящих архивов это не подходит, но пусть), пусть один JPEG занимает у нас где-то 0,5 мегабайта. Например, в «Мемориале» хранится более 13,7 млн. листов ( http://obd-memorial.ru/html/index.html ).

Что даёт нам 13,7 млн × 0,5 мегабайт = 6,5 терабайт. Напоминаю, это только один архив, далеко не самый большой и мы храним только один размер отсканированных изображений.

Vlad Venrigora 2014

Прилично, но не фантастически много. Если кто-то напишет софт, и договориться с архивами, то поддержку со стороны хостинга такому проекту найти проблем не будет.

Vlad Venrigora 2014

договорится )

Евгений Степанищев (bolknote.ru) 2014

Комментарий для Vlad Venrigora:

Я даже не представляю как с ними договариваться :) «Элар», вон, как-то договаривается :) 44 млн. рублей контракт на оцифровку одного из фондов РГАДА ( http://www.gencentre.ru/news/762/ ).

Vlad Venrigora 2014

может и Элар может слить архикапче документов для оцифровки. А потом еще как-то с сайтами договариваться чтобы внедрили архиКапчу, хостинг в этой цепочке не первое препятствие)

Евгений Степанищев (bolknote.ru) 2014

Комментарий для Vlad Venrigora:

Не думаю, что на обычных сайтах имеет смысл архикаптчу внедрять :) Я думал делать её на логине в электронный архив. Просто потому, что там где-то с 18 века и ранее применяется скоропись, выглядит она вот как тут на снимке: http://bolknote.ru/all/4142​, нужен навык, чтобы её читать.

Обычные посетители обычных сайтов взвоют :)

Vlad Venrigora 2014

OMG OMG это не те красивые каллиграфические надписи которые выставляют в музеях на грамотах и приказах это что-то суровое

Евгений Степанищев (bolknote.ru) 2014

Комментарий для Vlad Venrigora:

Обычная скоропись :)) Я уже довольно хорошо умею её читать :)