АрхиКАПТЧА
Некоторые архивы сейчас выставляют свои фонды в интернет — работать с бумажном документом сложно (с микрофильмами ещё сложнее), кроме того это всё ветшает, выцветает. К сожалению, на этом плюсы «цифры» кончаются, я знаю очень мало архивов, которые, кроме сканирования, ещё и распознали свои архивы.
Отсканировать, да ещё и распознать это всё — огромные деньги (тем более, что есть много рукописных документов, их автоматически не распознать, значит — нужно нанять людей, это ещё бо́льшие деньги).
Мне архивы откровенно жалко, столько информации безвозвратно теряется, а что делать их работники не понимают. Хуже всего, что способ есть, дешёвый, почти бесплатный — добровольцы выстоятся в очередь, только руку протяни.
Для начала, как запустить процесс сканирования документов? Да он уже запущен! Большинство исследователей приходит в архив и платит деньги за то, чтобы им дали скан с какого-либо документа, либо сканируют (фотографируют) его самостоятельно. Всё что нужно — дать интерфейс архивным работникам и исследователям, чтобы этот документ можно было разместить в едином месте и назначить ему реквизиты (фонд, опись, дело, страница и так далее).
Я бы свои документы с удовольствием туда положил, чтобы они не потерялись, если мой диск прикажет долго жить. Можно это всё обвязать социальщиной — лайками, ачивками, комментариями.
С распознаванием не сложнее. Многие знают проект «РеКАПТЧА» по распознаванию текста из книг.
Делаем на логине в наш электронных архив такую же «АрхиКАПТЧу», заставляем людей подтвердить, что они не роботы и распознать пару слов из документа.
Для тех, кто не знает «РеКАПТЧА» работает следующим образом: нужно распознать и ввести два слова, одно из которых системе известно, а второе — нет. Известное используется для проверки, что это не робот пытается войти, неизвестное, в этом и смысл — чтобы человек его распознал. Когда по неизвестному слову накапливается достойная статистика, в качестве верного варианта выбирается то, что чаще всего вводили.
Чтобы роботы не смогли ничего прочесть, в КАПТЧу обычно вводят искажения. В случае архива даже искажать ничего больше не надо — и так всё написано достаточно неразборчиво, роботы пока такое не читают. Например, в моём примере первое слово — «Елисеевъ», второе — «Игнатій».
Можно было бы помочь архивам — взять на себя такой некоммерческий проект, но ведь это где-то хостить надо, такие мощности стоят денег.
Вот бы «Яндексу» этим заняться, на манер гугловского проекта «Книги».
Можно просто организовать сбор документов и их расшифровку добровольцами. Это потребует гораздо меньше ресурсов. Достаточно поднять какую-нибудь MediaWiki с плагинами для работы с изображениями.
Комментарий для dionys.moikrug.ru:
Во-первых, добровольцев надо привлекать, именно это основная проблема (а не технологическая), во-вторых, я не уверен в правовом отношении — кто является владельцем этих документов?
Комментарий для dionys.moikrug.ru:
Кстати, а где хостить-то такой невероятный объём изображений, раз уж мы про технические вещи заговорили?
Комментарий для Евгения Степанищева:
Хостить то ладно, вот с траффиком будут проблемы, но их можно решить при помощи cloudflare. Модная нынче хрень которая за копейку экономит траффик.
Другое дело что я такую архикапчу в жизни не смогу ввести.
Комментарий для hshhhhh.name:
Значит вам и не нужны эти архивы :) Они там целиком так написаны, сотни страниц :)
Комментарий для Евгения Степанищева:
Понятно, что поначалу работу будут выполнять единицы, и в дальнейшем добровольцев будет не много, но процесс будет идти. Мне кажется, тут важно именно наличие удобного инструмента, а не огромное количество добровольцев.
Документы же, в моём понимании, не подпадают под копирайт. Но этот вопрос надо прорабатывать, да, мне не ясны права архивов на них.
Файлы сейчас можно хранить в облаках, цены там начинаются от 10 центов за гигабайт, и чем больше, тем цена ниже. Но на первых порах, для старта, хватит и обычного хостинга.
Комментарий для dionys.moikrug.ru:
В чём смысл, хорошего инструмента, если скорость низкая? Ты себе представляешь объём работы? Архивы просто огромные! Это можно сотни лет их распознавать.
Мда. Ты правда не понимаешь о каких объёмах речь :) У меня только на винте лежат гигабайты этих архивов, а у меня и десятка дел не наскребётся :)
Например, база «Мемориала» ( http://www.obd-memorial.ru/html/about.htm ) это 13,7 миллионов цифровых копий документов. Это не самая большая база и только один архив. В каждом районе, городе, населённом пункте есть свои архивы.
Комментарий для Евгения Степанищева:
Я вижу, проблема в том, что ты хочешь сделать всё и сразу. Это было бы здорово, конечно, но неосуществимо без солидной финансовой и технической помощи.
Но есть другой подход — делать большое малыми порциями, так работают все успешные ныне совместные проекты, включая «Википедию». Я вижу эту работу так: ты разобрал для себя пару страниц какого-то дела, выложи скан и его расшифровку. Кому-то понадобится просто результат твоего труда, а кто-то зацепится за него и расшифрует ещё пару страниц. С миру по нитке.
К тому же, я гарантирую, никому (частным лицам) не нужны здесь и сейчас целиком оцифрованные архивы. (Большая часть записей из них вообще, вероятно, никогда не будет востребована.)
Немного оффтоп: а Татарстан еще не выложил свои архивы никуда? А то по моим запросам ничего не нашли и как проверить — непонятно :(
Комментарий для Евгения Степанищева:
Ну так смысл это же капчи в том что оно просто лежит на каком-то сайте чтобы оставить комментарий и я не могу без её разгадыварния это сделать.
Если на каком-то сайте будет эта вот АрхиКапча -- ну его этот сайт.
Комментарий для spiridonov.livejournal.com:
Смотря какие архивы. Закамье, к примеру, относилось к Уфимской губернии, и ревизские сказки по нему находятся в башкирском архиве, и они оцифрованы.
Комментарий для spiridonov.livejournal.com:
НА РТ — нет. Но некоторые части Татарстана относились раньше к другим регионам. Например, бугульминский район относился к Татарстану, до этого к Самаре, до этого с Оренбургу, до этого — к Уфе. Соответственно, во всех этих архивах что-то про него есть, у Самары и Уфы даже часть в онлайне.
Комментарий для hshhhhh.name:
АрхиКаптча будет на входе в архив. Если кто-то не сможет прочитать что на ней, то не сможет прочитать и архивные документы тоже.
А как вариант https://www.mturk.com/mturk/welcome не подходит?
Комментарий для jankkhvej:
А они бесплатно будут работать что ли?
Комментарий для Евгения Степанищева:
ну в таком случае, учитывая потребность человечества в этих архивах, и правда лучше медавики сделать -- быстрее будет :)
не, идея -- огонь. но не взлетит как мне кажется.
Комментарий для hshhhhh.name:
Если не толкать, то не взлетит, конечно :)
такое делать не выгодно. в этом основная проблема
т. е. теоретически за такое могут взяться поисковые гиганты и корпорации у которых есть излишки ресурса которые простаивают, но которые можно было бы использовать на что-то полезное что потом пригодится
сканы архивов для поиска пригодятся, а вот всяким IBM от них толку нету совсем
Комментарий для BOLVERIN:
Да какие уж АйБиЭм… Архивам денежка выделяется, некоторым даже в объёме, чтобы хватило оцифровать. Просто это способ более эффективно этот бюджет потратить.
Половина народа в той же реКапче пишут одно слово, которое проверяется, и вместо второго белиберду или что-нибудь нецензурное.
Комментарий для Азат:
Вы, конечно же, неправы, так как во-первых, очень малая часть людей знает, что только одно слово проверяется, во-вторых, не всегда понятно, какое слово проверочное.
Что, еще остались те, кто не понимает, что капча -- зло?
Комментарий для иван:
Ну назовите это не каптчей что ли. У каптчи другая цель — не пустить робота, тут цель вообще другая — распознать изображение, типа платы за вход, а мимикрирует эта штука под каптчу.
Вебмастер, который ставит такую капчу на сайт -- мудак. С какой стати посетитель должен разбирать чьи-то каракули? Давал ли посетитель на это согласие? Чем ему компенсируется те 5 минут, что он потратил на это говно?
Давно хотел спросить: а в чем такая великая ценность архивов? Ну по крайней мере давних, документы которых не вызывают никаких правовых последствий? В чем ценность родословной, если дальше 3-4 поколения анализ ДНК сделать невозможно, а следовательно нельзя гарантировать, что это именно твой предок, даже если по документам все сходится?
По теме: насколько мне известно работу по оцифровке архивов для установления родословных уже довольно давно ведут мормоны (церковь СПД), они ребятишки технические продвинутые и, если они не реализовали такую штуку, то значит эффективность ее была оценена как чрезвычайно низкая.
Да и потом, как такую капчу вводить? Хорошо если слово содержит только ер, а если ять или прости господи какую-нибудь ижицу? И вот: буква я произошла от буквы юс малый, но не сразу а постепенно. То есть было множество промежуточных вариантов. Что в таком случае надо вводить?
Я эту архикапчу вообще прочитать не могу. А рекапча достала и вместо распознаваемого слова всегда пишу «fuck».
Комментарий для Евгения Степанищева:
Тогда лучше игру с ачивментами и корованами сделать.
Да мормоны занимаются этим ( https://familysearch.org/indexing/ ). Но и стимула как такового там нет. С какой стати я буду индексировать какие-то куски метрик неизвестного населенного пункта, не зная географии-истории-особенностей этой местности!?
Более рационально и реально как и писал Евгений: каждый исследователь берет нужные ему нас.пункты и семьи и изучает их. Так по крупинке гору разобрать легче и эффективнее. По поводу места — это сотни терабайт изображений — далеко не шутка!
Комментарий для иван:
Доступом к архиву.
Комментарий для anonymous:
Не знаю. Законы логике не подчиняются же.
Ну а какая разница — прямое родство или нет? Люди и приёмных родителей считают родителями. Гены и воспитание — то и другое даёт вклад.
Или они слишком консервативные.
Возможно цифровать пока только только определённые года. Если был бы реальный проект — можно было бы что-то придумать, даже не сомневаюсь (хоть наэкранную клавиатуру).
На WikiMedia Meta, кстати, начали очередную дискуссию о необходимости поддержки одного из генеалогических проектов. Думаю, под покровительством WikiMedia Foundation может что-нибудь этакое получиться. https://meta.wikimedia.org/wiki/Wikimedia_genealogy_project
А какой предполагаемый объем данных нужно будет хостить?
Комментарий для Vlad Venrigora:
Давай прикинем на примере какого-нибудь архива. Предположим, что хранить будем только один размер файлов (для настоящих архивов это не подходит, но пусть), пусть один JPEG занимает у нас где-то 0,5 мегабайта. Например, в «Мемориале» хранится более 13,7 млн. листов ( http://obd-memorial.ru/html/index.html ).
Что даёт нам 13,7 млн × 0,5 мегабайт = 6,5 терабайт. Напоминаю, это только один архив, далеко не самый большой и мы храним только один размер отсканированных изображений.
Прилично, но не фантастически много. Если кто-то напишет софт, и договориться с архивами, то поддержку со стороны хостинга такому проекту найти проблем не будет.
договорится )
Комментарий для Vlad Venrigora:
Я даже не представляю как с ними договариваться :) «Элар», вон, как-то договаривается :) 44 млн. рублей контракт на оцифровку одного из фондов РГАДА ( http://www.gencentre.ru/news/762/ ).
может и Элар может слить архикапче документов для оцифровки. А потом еще как-то с сайтами договариваться чтобы внедрили архиКапчу, хостинг в этой цепочке не первое препятствие)
Комментарий для Vlad Venrigora:
Не думаю, что на обычных сайтах имеет смысл архикаптчу внедрять :) Я думал делать её на логине в электронный архив. Просто потому, что там где-то с 18 века и ранее применяется скоропись, выглядит она вот как тут на снимке: http://bolknote.ru/all/4142, нужен навык, чтобы её читать.
Обычные посетители обычных сайтов взвоют :)
OMG OMG это не те красивые каллиграфические надписи которые выставляют в музеях на грамотах и приказах это что-то суровое
Комментарий для Vlad Venrigora:
Обычная скоропись :)) Я уже довольно хорошо умею её читать :)