АрхиКАПТЧА

Некоторые архивы сейчас выставляют свои фонды в интернет — работать с бумажном документом сложно (с микрофильмами ещё сложнее), кроме того это всё ветшает, выцветает. К сожалению, на этом плюсы «цифры» кончаются, я знаю очень мало архивов, которые, кроме сканирования, ещё и распознали свои архивы.

Отсканировать, да ещё и распознать это всё — огромные деньги (тем более, что есть много рукописных документов, их автоматически не распознать, значит — нужно нанять людей, это ещё бо́льшие деньги).

Мне архивы откровенно жалко, столько информации безвозвратно теряется, а что делать их работники не понимают. Хуже всего, что способ есть, дешёвый, почти бесплатный — добровольцы выстоятся в очередь, только руку протяни.

Для начала, как запустить процесс сканирования документов? Да он уже запущен! Большинство исследователей приходит в архив и платит деньги за то, чтобы им дали скан с какого-либо документа, либо сканируют (фотографируют) его самостоятельно. Всё что нужно — дать интерфейс архивным работникам и исследователям, чтобы этот документ можно было разместить в едином месте и назначить ему реквизиты (фонд, опись, дело, страница и так далее).

Я бы свои документы с удовольствием туда положил, чтобы они не потерялись, если мой диск прикажет долго жить. Можно это всё обвязать социальщиной — лайками, ачивками, комментариями.

С распознаванием не сложнее. Многие знают проект «РеКАПТЧА» по распознаванию текста из книг. АрхиКАПТЧА (24.24КиБ) Делаем на логине в наш электронных архив такую же «АрхиКАПТЧу», заставляем людей подтвердить, что они не роботы и распознать пару слов из документа.

Для тех, кто не знает «РеКАПТЧА» работает следующим образом: нужно распознать и ввести два слова, одно из которых системе известно, а второе — нет. Известное используется для проверки, что это не робот пытается войти, неизвестное, в этом и смысл — чтобы человек его распознал. Когда по неизвестному слову накапливается достойная статистика, в качестве верного варианта выбирается то, что чаще всего вводили.

Чтобы роботы не смогли ничего прочесть, в КАПТЧу обычно вводят искажения. В случае архива даже искажать ничего больше не надо — и так всё написано достаточно неразборчиво, роботы пока такое не читают. Например, в моём примере первое слово — «Елисеевъ», второе — «Игнатій».

Можно было бы помочь архивам — взять на себя такой некоммерческий проект, но ведь это где-то хостить надо, такие мощности стоят денег.

Вот бы «Яндексу» этим заняться, на манер гугловского проекта «Книги».
25 февраля 2014 08:54

Denis Ibaev (dionys.moikrug.ru)
25 февраля 2014, 11:24

Можно просто организовать сбор документов и их расшифровку добровольцами. Это потребует гораздо меньше ресурсов. Достаточно поднять какую-нибудь MediaWiki с плагинами для работы с изображениями.

Евгений Степанищев (bolknote.ru)
25 февраля 2014, 12:13, ответ предназначен Denis Ibaev (dionys.moikrug.ru):

Во-первых, добровольцев надо привлекать, именно *это* основная проблема (а не технологическая), во-вторых, я не уверен в правовом отношении — кто является владельцем этих документов?

Евгений Степанищев (bolknote.ru)
25 февраля 2014, 12:47, ответ предназначен Denis Ibaev (dionys.moikrug.ru):

Кстати, а где хостить-то такой невероятный объём изображений, раз уж мы про технические вещи заговорили?

hshhhhh (hshhhhh.name)
25 февраля 2014, 13:16, ответ предназначен Евгений Степанищев (bolknote.ru):

Кстати, а где хостить-то такой невероятный объём изображений, раз уж мы про технические вещи заговорили?
Хостить то ладно, вот с траффиком будут проблемы, но их можно решить при помощи cloudflare. Модная нынче хрень которая за копейку экономит траффик.

Другое дело что я такую архикапчу в жизни не смогу ввести.

Евгений Степанищев (bolknote.ru)
25 февраля 2014, 13:20, ответ предназначен hshhhhh (hshhhhh.name):

Другое дело что я такую архикапчу в жизни не смогу ввести
Значит вам и не нужны эти архивы :) Они там целиком так написаны, сотни страниц :)

Denis Ibaev (dionys.moikrug.ru)
25 февраля 2014, 13:23, ответ предназначен Евгений Степанищев (bolknote.ru):

Понятно, что поначалу работу будут выполнять единицы, и в дальнейшем добровольцев будет не много, но процесс будет идти. Мне кажется, тут важно именно наличие удобного инструмента, а не огромное количество добровольцев.

Документы же, в моём понимании, не подпадают под копирайт. Но этот вопрос надо прорабатывать, да, мне не ясны права архивов на них.

Файлы сейчас можно хранить в облаках, цены там начинаются от 10 центов за гигабайт, и чем больше, тем цена ниже. Но на первых порах, для старта, хватит и обычного хостинга.

Евгений Степанищев (bolknote.ru)
25 февраля 2014, 13:32, ответ предназначен Denis Ibaev (dionys.moikrug.ru):

Понятно, что поначалу работу будут выполнять единицы, и в дальнейшем добровольцев будет не много, но процесс будет идти. Мне кажется, тут важно именно наличие удобного инструмента, а не огромное количество добровольцев.
В чём смысл, хорошего инструмента, если скорость низкая? Ты себе представляешь объём работы? Архивы просто огромные! Это можно сотни лет их распознавать.
Файлы сейчас можно хранить в облаках, цены там начинаются от 10 центов за гигабайт, и чем больше, тем цена ниже. Но на первых порах, для старта, хватит и обычного хостинга.
Мда. Ты правда не понимаешь о каких объёмах речь :) У меня только на винте лежат гигабайты этих архивов, а у меня и десятка дел не наскребётся :)

Например, база «Мемориала» (http://www.obd-memorial.ru/html/about.htm) это 13,7 *миллионов* цифровых копий документов. Это не самая большая база и только *один* архив. В каждом районе, городе, населённом пункте есть свои архивы.

Denis Ibaev (dionys.moikrug.ru)
25 февраля 2014, 13:45, ответ предназначен Евгений Степанищев (bolknote.ru):

Я вижу, проблема в том, что ты хочешь сделать всё и сразу. Это было бы здорово, конечно, но неосуществимо без солидной финансовой и технической помощи.

Но есть другой подход — делать большое малыми порциями, так работают все успешные ныне совместные проекты, включая «Википедию». Я вижу эту работу так: ты разобрал для себя пару страниц какого-то дела, выложи скан и его расшифровку. Кому-то понадобится просто результат твоего труда, а кто-то зацепится за него и расшифрует ещё пару страниц. С миру по нитке.

К тому же, я гарантирую, никому (частным лицам) не нужны здесь и сейчас целиком оцифрованные архивы. (Большая часть записей из них вообще, вероятно, никогда не будет востребована.)

Sam Spiridonov (spiridonov.livejournal.com)
25 февраля 2014, 14:07

Немного оффтоп: а Татарстан еще не выложил свои архивы никуда? А то по моим запросам ничего не нашли и как проверить - непонятно :(

hshhhhh (hshhhhh.name)
25 февраля 2014, 14:15, ответ предназначен Евгений Степанищев (bolknote.ru):

Значит вам и не нужны эти архивы :) Они там целиком так написаны, сотни страниц :)
Ну так смысл это же капчи в том что оно просто лежит на каком-то сайте чтобы оставить комментарий и я не могу без её разгадыварния это сделать.

Если на каком-то сайте будет эта вот АрхиКапча -- ну его этот сайт.

Denis Ibaev (dionys.moikrug.ru)
25 февраля 2014, 14:32, ответ предназначен Sam Spiridonov (spiridonov.livejournal.com):

Немного оффтоп: а Татарстан еще не выложил свои архивы никуда? А то по моим запросам ничего не нашли и как проверить - непонятно
Смотря какие архивы. Закамье, к примеру, относилось к Уфимской губернии, и ревизские сказки по нему находятся в башкирском архиве, и они оцифрованы.

Евгений Степанищев (bolknote.ru)
25 февраля 2014, 14:49, ответ предназначен Sam Spiridonov (spiridonov.livejournal.com):

Немного оффтоп: а Татарстан еще не выложил свои архивы никуда? А то по моим запросам ничего не нашли и как проверить — непонятно :(
НА РТ — нет. Но некоторые части Татарстана относились раньше к другим регионам. Например, бугульминский район относился к Татарстану, до этого к Самаре, до этого с Оренбургу, до этого — к Уфе. Соответственно, во всех этих архивах что-то про него есть, у Самары и Уфы даже часть в онлайне.

Евгений Степанищев (bolknote.ru)
25 февраля 2014, 14:49, ответ предназначен hshhhhh (hshhhhh.name):

Ну так смысл это же капчи в том что оно просто лежит на каком-то сайте чтобы оставить комментарий и я не могу без её разгадыварния это сделать.
Если на каком-то сайте будет эта вот АрхиКапча — ну его этот сайт.
АрхиКаптча будет на входе в архив. Если кто-то не сможет прочитать что на ней, то не сможет прочитать и архивные документы тоже.

jankkhvej (инкогнито)
25 февраля 2014, 14:57

А как вариант https://www.mturk.com/mturk/welcome не подходит?

Евгений Степанищев (bolknote.ru)
25 февраля 2014, 15:03, ответ предназначен jankkhvej

А они бесплатно будут работать что ли?

hshhhhh (hshhhhh.name)
25 февраля 2014, 16:54, ответ предназначен Евгений Степанищев (bolknote.ru):

АрхиКаптча будет на входе в архив. Если кто-то не сможет прочитать что на ней, то не сможет прочитать и архивные документы тоже.
ну в таком случае, учитывая потребность человечества в этих архивах, и правда лучше медавики сделать -- быстрее будет :)

не, идея -- огонь. но не взлетит как мне кажется.

Евгений Степанищев (bolknote.ru)
25 февраля 2014, 17:25, ответ предназначен hshhhhh (hshhhhh.name):

Если не толкать, то не взлетит, конечно :)

BOLVERIN (инкогнито)
25 февраля 2014, 21:07

такое делать не выгодно. в этом основная проблема
т. е. теоретически за такое могут взяться поисковые гиганты и корпорации у которых есть излишки ресурса которые простаивают, но которые можно было бы использовать на что-то полезное что потом пригодится
сканы архивов для поиска пригодятся, а вот всяким IBM от них толку нету совсем

Евгений Степанищев (bolknote.ru)
25 февраля 2014, 22:32, ответ предназначен BOLVERIN

Да какие уж АйБиЭм… Архивам денежка выделяется, некоторым даже в объёме, чтобы хватило оцифровать. Просто это способ более эффективно этот бюджет потратить.

Азат (инкогнито)
25 февраля 2014, 23:50

Половина народа в той же реКапче пишут одно слово, которое проверяется, и вместо второго белиберду или что-нибудь нецензурное.

Тима Люмин (инкогнито)
25 февраля 2014, 23:56, ответ предназначен Азату

Вы, конечно же, неправы, так как во-первых, очень малая часть людей знает, что только одно слово проверяется, во-вторых, не всегда понятно, какое слово проверочное.

иван (инкогнито)
26 февраля 2014, 09:47

Что, еще остались те, кто не понимает, что капча -- зло?

Евгений Степанищев (bolknote.ru)
26 февраля 2014, 10:25, ответ предназначен ивану

Ну назовите это не каптчей что ли. У каптчи другая цель — не пустить робота, тут цель вообще другая — распознать изображение, типа платы за вход, а мимикрирует эта штука под каптчу.

иван (инкогнито)
26 февраля 2014, 10:36

Вебмастер, который ставит такую капчу на сайт -- мудак. С какой стати посетитель должен разбирать чьи-то каракули? Давал ли посетитель на это согласие? Чем ему компенсируется те 5 минут, что он потратил на это говно?

anonymous (инкогнито)
26 февраля 2014, 12:02

Давно хотел спросить: а в чем такая великая ценность архивов? Ну по крайней мере давних, документы которых не вызывают никаких правовых последствий? В чем ценность родословной, если дальше 3-4 поколения анализ ДНК сделать невозможно, а следовательно нельзя гарантировать, что это именно твой предок, даже если по документам все сходится?
По теме: насколько мне известно работу по оцифровке архивов для установления родословных уже довольно давно ведут мормоны (церковь СПД), они ребятишки технические продвинутые и, если они не реализовали такую штуку, то значит эффективность ее была оценена как чрезвычайно низкая.

anonymous (инкогнито)
26 февраля 2014, 12:09

Да и потом, как такую капчу вводить? Хорошо если слово содержит только ер, а если ять или прости господи какую-нибудь ижицу? И вот: буква я произошла от буквы юс малый, но не сразу а постепенно. То есть было множество промежуточных вариантов. Что в таком случае надо вводить?

guest (инкогнито)
26 февраля 2014, 12:40

Я эту архикапчу вообще прочитать не могу. А рекапча достала и вместо распознаваемого слова всегда пишу "fuck".

Инкогнито (инкогнито)
26 февраля 2014, 12:43, ответ предназначен Евгений Степанищев (bolknote.ru):

Тогда лучше игру с ачивментами и корованами сделать.

Григорий (инкогнито)
26 февраля 2014, 13:44

Да мормоны занимаются этим (https://familysearch.org/indexing/). Но и стимула как такового там нет. С какой стати я буду индексировать какие-то куски метрик неизвестного населенного пункта, не зная географии-истории-особенностей этой местности!?
Более рационально и реально как и писал Евгений: каждый исследователь берет нужные ему нас.пункты и семьи и изучает их. Так по крупинке гору разобрать легче и эффективнее. По поводу места - это сотни терабайт изображений - далеко не шутка!

Евгений Степанищев (bolknote.ru)
26 февраля 2014, 14:55, ответ предназначен ивану

Вебмастер, который ставит такую капчу на сайт — мудак. С какой стати посетитель должен разбирать чьи-то каракули? Давал ли посетитель на это согласие? Чем ему компенсируется те 5 минут, что он потратил на это говно?
Доступом к архиву.

Евгений Степанищев (bolknote.ru)
26 февраля 2014, 14:59, ответ предназначен anonymous

Давно хотел спросить: а в чем такая великая ценность архивов? Ну по крайней мере давних, документы которых не вызывают никаких правовых последствий?
Не знаю. Законы логике не подчиняются же.
В чем ценность родословной, если дальше 3-4 поколения анализ ДНК сделать невозможно, а следовательно нельзя гарантировать, что это именно твой предок, даже если по документам все сходится?
Ну а какая разница — прямое родство или нет? Люди и приёмных родителей считают родителями. Гены и воспитание — то и другое даёт вклад.
По теме: насколько мне известно работу по оцифровке архивов для установления родословных уже довольно давно ведут мормоны (церковь СПД), они ребятишки технические продвинутые и, если они не реализовали такую штуку, то значит эффективность ее была оценена как чрезвычайно низкая.
Или они слишком консервативные.
Да и потом, как такую капчу вводить? Хорошо если слово содержит только ер, а если ять или прости господи какую-нибудь ижицу? И вот: буква я произошла от буквы юс малый, но не сразу а постепенно. То есть было множество промежуточных вариантов. Что в таком случае надо вводить?
Возможно цифровать пока только только определённые года. Если был бы реальный проект — можно было бы что-то придумать, даже не сомневаюсь (хоть наэкранную клавиатуру).

Denis Ibaev (dionys.moikrug.ru)
28 февраля 2014, 00:27

На WikiMedia Meta, кстати, начали очередную дискуссию о необходимости поддержки одного из генеалогических проектов. Думаю, под покровительством WikiMedia Foundation может что-нибудь этакое получиться. https://meta.wikimedia.org/wiki/Wikimedia_genealogy_project

Vlad Venrigora (инкогнито)
3 марта 2014, 23:58

А какой предполагаемый объем данных нужно будет хостить?

Евгений Степанищев (bolknote.ru)
4 марта 2014, 08:04, ответ предназначен Vlad Venrigora

Давай прикинем на примере какого-нибудь архива. Предположим, что хранить будем только один размер файлов (для настоящих архивов это не подходит, но пусть), пусть один JPEG занимает у нас где-то 0,5 мегабайта. Например, в «Мемориале» хранится более 13,7 млн. листов (http://obd-memorial.ru/html/index.html).

Что даёт нам 13,7 млн × 0,5 мегабайт = 6,5 терабайт. Напоминаю, это только один архив, далеко не самый большой и мы храним только один размер отсканированных изображений.

Vlad Venrigora (инкогнито)
4 марта 2014, 16:24

Прилично, но не фантастически много. Если кто-то напишет софт, и договориться с архивами, то поддержку со стороны хостинга такому проекту найти проблем не будет.

Vlad Venrigora (инкогнито)
4 марта 2014, 16:25

*договорится* )

Евгений Степанищев (bolknote.ru)
5 марта 2014, 06:51, ответ предназначен Vlad Venrigora

Я даже не представляю как с ними договариваться :) «Элар», вон, как-то договаривается :) 44 млн. рублей контракт на оцифровку одного из фондов РГАДА (http://www.gencentre.ru/news/762/).

Vlad Venrigora (инкогнито)
5 марта 2014, 14:06

может и Элар может слить архикапче документов для оцифровки. А потом еще как-то с сайтами договариваться чтобы внедрили архиКапчу, хостинг в этой цепочке не первое препятствие)

Евгений Степанищев (bolknote.ru)
5 марта 2014, 22:31, ответ предназначен Vlad Venrigora

Не думаю, что на обычных сайтах имеет смысл архикаптчу внедрять :) Я думал делать её на логине в электронный архив. Просто потому, что там где-то с 18 века и ранее применяется скоропись, выглядит она вот как тут на снимке: http://bolknote.ru/2014/02/27/~4142, нужен навык, чтобы её читать.

Обычные посетители обычных сайтов взвоют :)

Vlad Venrigora (инкогнито)
6 марта 2014, 00:42

OMG OMG это не те красивые каллиграфические надписи которые выставляют в музеях на грамотах и приказах это что-то суровое

Евгений Степанищев (bolknote.ru)
6 марта 2014, 09:56, ответ предназначен Vlad Venrigora

Обычная скоропись :)) Я уже довольно хорошо умею её читать :)

Ваше имя или адрес блога (можно OpenID):

Текст вашего комментария, не HTML:

Кому бы вы хотели ответить (или кликните на его аватару)