Ошибки и ОБД «Мемориал»
В ходе Великой Отечественной Войны, подозреваю как и в ходе любой другой, не было времени аккуратно заполнять бумаги, потому в них хватает путаницы, особенно это касается бумаг начала войны.
Поэтому в военных архивах не следует искать точные совпадения, нужно расчитывать на то, что будут ошибки. Например, в архиве ОБД «Мемориал» (это архив военных потерь) три раза встречается мой дед, только в одном месте неправильно указан год рождения и срезано отчество, в другом случае — имя написано с ошибкой («Федр»).
Ребята, оцифровывающие военный архив не исправляют эти данные и правильно делают. Откуда им знать, что за «Ник.» скрывается «Николаевич», а не «Никифорович», а человека действительно по паспорту звали не «Федр» (мало ли странных имён, да и в паспорте могли с ошибкой написать).
Поэтому будете искать, пользуйтесь возможностью указать только часть имени и отчества, я искал по «Старостин Ф* Н*», «Мемориал» поддерживает такой синтаксис, тут символ „*“ означает «любое количество символов».
правильно писать «путаницы»
А вот интересно- а наградные документы оцифрованы? Или ещё какие-нибудь бумаги?
Да, наградные документы тоже есть:
http://www.podvignaroda.mil.ru/
Комментарий для profiles.google.com/jankkhvej/:
Спасибо, вернусь с обеда, поправлю.
В «Мемориале» к каждой записи привязан скан документа, и это во многих случаях помогает.
А вообще, сама база персоналий у них весьма забавно организована... Вот как-нибудь надо мне собраться с мыслями и рассказать, как данные я оттуда сливал данные для obd-pobeda.karelia.ru. По причине полного отсутствия публичного API это было весело.
Комментарий для Евгения Степанищева:
Там путаница может быть не только с фамилиями и именами. ОБД просматриваю давно и даже писал разработчикам, по поводу некоторых ошибок. Ответ такой: мы будем исправлять базу, но только по визуальному факту ошибки. Что это значит? Вот что:
например, в неком районе, скажем Ивановском районе Тульской области, есть ТОЛЬКО одна деревня Выселки. Другие Выселки есть конечно, но не Ивановском районе, а скажем в Петровском. Так вот, все опечатки, по типу, Высилки, Василки, Веселки, Беселки, Быселки и т. д. и т. п. в Ивановском районе Тульской области НЕ будут заменены на Выселки, НО такие замены попадут в очередь, если каждая опечатка или описка (скорее описка, как правило распознавание там очень верное) МОГУТ быть заменены, если будут показаны факты. Фактами являются ссылки на неверные документы в базе. Т. е. надо найти все опечатки и доказать, что там не Беселки, а Выселки. Доказать можно в 10% случаев, да и найти не так просто. Также усложняется все тем, что там flash, а сделать ссылку на flash просто нереально, будет ссылка на сам мемориал. Приходится делать скриншоты и указывать ID документа (там такой есть). Все мои 3 или 4 правки так и не сделаны до текущего момента, а я отправлял это еще в 2008 году.
И если с деревнями или городами еще как то логично доказать описку или неверную запись, то с фамилиями нереально никак. Я точно знаю, что в моей деревне не может быть РубИн, может быть только РубАн, и доказать это как правку нереально. А ведь есть и более сложные фамилии: Малеенко, например, которые записаны так: Малеенков, Маленко, Маленков и т. д. и т. п.
В качестве предложения: обращаться к разработчикам с просьбой продумать более простую, но приемлимую систему правок.
Комментарий для PastorGL:
Расскажите, конечно, интересно. Только вы закон нарушаете, надеюсь вы знаете об этом. У любой базы данных (не в техническом смысле, а у данных) есть владелец.
Комментарий для oldTV:
Там хоть и Флеш, но возможность сослаться на документ есть. У каждого документа есть «дискета» в инструментарии. Так открывается обычный JPEG.
Комментарий для Евгения Степанищева:
Сложность по jpeg как раз в том, что бы сослаться на запись, а не на саму картинку.
Комментарий для PastorGL:
Ну, я знаю об этом. Как бы я иначе узнал, что все три человека — один мой дед? По сканам документов.
Про «Мемориал» я писал уже: http://bolknote.ru/all/3239/
Комментарий для oldTV:
А, ну тогда увы, да. К сожалению, сайт плохо сделан, но всё равно — огромное спасибо им за работу (которая до сих пор продолжается, кстати).
Комментарий для Евгения Степанищева:
А без редакторского доступа слить что-либо оттуда невозможно, сработает лимит на количество запросов :) Когда мы официально (через правительство Карелии) обратились за данными, они нам его дали, и сказали — «ребята, дальше сами, API у нас нет, документации по протоколу тоже нет, и не будет». Пришлось протокол реверсить, и всячески экспериментировать.
Оказалось, что при определённых сочетаниях параметров «Мемориал» выдаёт постгресовскую ошибку с текстом запроса, по которому легко восстанавливается структура базы. В общем, оно не особо качественно сделано.
Комментарий для PastorGL:
Забавно :)
Это очень здорово. Кстати, есть ещё одна база данных, сборная солянка нескольких. Количество записей меньше, чем у «Мемориала», зато источников больше: http://ipc.antat.ru/Ref/all.asp
Комментарий для Евгения Степанищева:
Эта база не является официально признанной как архив, и её нельзя использовать для проектов, которые делаются по госзаказу.
Комментарий для oldTV:
Идея простая: база должна 1:1 соответствовать документам. Если в документе ошибка, нужно вносить изменения в бумажный документ, и только после этого — в базу.
У ОБД одна проблема — они рассматривают базу не как список дел с картинками, а как данные о людях
Поэтому нет нормальной возможности посмотреть только то, что нужно — нет опубликованного списка дел.
Для поиска родственников это нормально, а для поиска материалов уже нет
Приходится прокачивать все подряд в поисках ярких дел.
Те информационно полный аут и руки оторвать разработке, а на практике вполне можно жить.
Будем надеяться что пару лет хотя бы ничего не поменяется и все прокачается.
Нет конечно понимания что должны ОБД сразу раздавать торрентами по делам (особенно тем, что не по людям)