Это сайт — моя персональная записная книжка. Интересна мне, по большей части, история, своя жизнь и немного программирование.

Ошибки и ОБД «Мемориал»

Один и тот же человек (24.40КиБ)

В ходе Великой Отечественной Войны, подозреваю как и в ходе любой другой, не было времени аккуратно заполнять бумаги, потому в них хватает путаницы, особенно это касается бумаг начала войны.

Поэтому в военных архивах не следует искать точные совпадения, нужно расчитывать на то, что будут ошибки. Например, в архиве ОБД «Мемориал» (это архив военных потерь) три раза встречается мой дед, только в одном месте неправильно указан год рождения и срезано отчество, в другом случае — имя написано с ошибкой («Федр»).

Ребята, оцифровывающие военный архив не исправляют эти данные и правильно делают. Откуда им знать, что за «Ник.» скрывается «Николаевич», а не «Никифорович», а человека действительно по паспорту звали не «Федр» (мало ли странных имён, да и в паспорте могли с ошибкой написать).

Поэтому будете искать, пользуйтесь возможностью указать только часть имени и отчества, я искал по «Старостин Ф* Н*», «Мемориал» поддерживает такой синтаксис, тут символ „*“ означает «любое количество символов».

16 комментариев
Sergey Solyanik (profiles.google.com/jankkhvej/) 2012

путанницы

правильно писать «путаницы»

Алексей Томин (alxt.moikrug.ru) 2012

А вот интересно- а наградные документы оцифрованы? Или ещё какие-нибудь бумаги?

Sirozha Gladkov (sirozhagladkov.ya.ru) 2012

Да, наградные документы тоже есть:
http://www.podvignaroda.mil.ru/

Евгений Степанищев (bolknote.ru) 2012

Комментарий для profiles.google.com/jankkhvej/:

Спасибо, вернусь с обеда, поправлю.

PastorGL 2012

В «Мемориале» к каждой записи привязан скан документа, и это во многих случаях помогает.

А вообще, сама база персоналий у них весьма забавно организована... Вот как-нибудь надо мне собраться с мыслями и рассказать, как данные я оттуда сливал данные для obd-pobeda.karelia.ru. По причине полного отсутствия публичного API это было весело.

oldTV 2012

Комментарий для Евгения Степанищева:

Там путаница может быть не только с фамилиями и именами. ОБД просматриваю давно и даже писал разработчикам, по поводу некоторых ошибок. Ответ такой: мы будем исправлять базу, но только по визуальному факту ошибки. Что это значит? Вот что:
например, в неком районе, скажем Ивановском районе Тульской области, есть ТОЛЬКО одна деревня Выселки. Другие Выселки есть конечно, но не Ивановском районе, а скажем в Петровском. Так вот, все опечатки, по типу, Высилки, Василки, Веселки, Беселки, Быселки и т. д. и т. п. в Ивановском районе Тульской области НЕ будут заменены на Выселки, НО такие замены попадут в очередь, если каждая опечатка или описка (скорее описка, как правило распознавание там очень верное) МОГУТ быть заменены, если будут показаны факты. Фактами являются ссылки на неверные документы в базе. Т. е. надо найти все опечатки и доказать, что там не Беселки, а Выселки. Доказать можно в 10% случаев, да и найти не так просто. Также усложняется все тем, что там flash, а сделать ссылку на flash просто нереально, будет ссылка на сам мемориал. Приходится делать скриншоты и указывать ID документа (там такой есть). Все мои 3 или 4 правки так и не сделаны до текущего момента, а я отправлял это еще в 2008 году.

И если с деревнями или городами еще как то логично доказать описку или неверную запись, то с фамилиями нереально никак. Я точно знаю, что в моей деревне не может быть РубИн, может быть только РубАн, и доказать это как правку нереально. А ведь есть и более сложные фамилии: Малеенко, например, которые записаны так: Малеенков, Маленко, Маленков и т. д. и т. п.

В качестве предложения: обращаться к разработчикам с просьбой продумать более простую, но приемлимую систему правок.

Евгений Степанищев (bolknote.ru) 2012

Комментарий для PastorGL:

Вот как-нибудь надо мне собраться с мыслями и рассказать, как данные я оттуда сливал данные для obd-pobeda.karelia.ru.

Расскажите, конечно, интересно. Только вы закон нарушаете, надеюсь вы знаете об этом. У любой базы данных (не в техническом смысле, а у данных) есть владелец.

Евгений Степанищев (bolknote.ru) 2012

Комментарий для oldTV:

Также усложняется все тем, что там flash, а сделать ссылку на flash просто нереально, будет ссылка на сам мемориал. Приходится делать скриншоты и указывать ID документа (там такой есть).

Там хоть и Флеш, но возможность сослаться на документ есть. У каждого документа есть «дискета» в инструментарии. Так открывается обычный JPEG.

oldTV 2012

Комментарий для Евгения Степанищева:

Сложность по jpeg как раз в том, что бы сослаться на запись, а не на саму картинку.

Евгений Степанищев (bolknote.ru) 2012

Комментарий для PastorGL:

В «Мемориале» к каждой записи привязан скан документа, и это во многих случаях помогает.

Ну, я знаю об этом. Как бы я иначе узнал, что все три человека — один мой дед? По сканам документов.

Про «Мемориал» я писал уже: http://bolknote.ru/all/3239/

Евгений Степанищев (bolknote.ru) 2012

Комментарий для oldTV:

Сложность по jpeg как раз в том, что бы сослаться на запись, а не на саму картинку.

А, ну тогда увы, да. К сожалению, сайт плохо сделан, но всё равно — огромное спасибо им за работу (которая до сих пор продолжается, кстати).

PastorGL 2012

Комментарий для Евгения Степанищева:

Расскажите, конечно, интересно. Только вы закон нарушаете, надеюсь вы знаете об этом. У любой базы данных (не в техническом смысле, а у данных) есть владелец.

А без редакторского доступа слить что-либо оттуда невозможно, сработает лимит на количество запросов :) Когда мы официально (через правительство Карелии) обратились за данными, они нам его дали, и сказали — «ребята, дальше сами, API у нас нет, документации по протоколу тоже нет, и не будет». Пришлось протокол реверсить, и всячески экспериментировать.

Оказалось, что при определённых сочетаниях параметров «Мемориал» выдаёт постгресовскую ошибку с текстом запроса, по которому легко восстанавливается структура базы. В общем, оно не особо качественно сделано.

Евгений Степанищев (bolknote.ru) 2012

Комментарий для PastorGL:

Оказалось, что при определённых сочетаниях параметров «Мемориал» выдаёт постгресовскую ошибку с текстом запроса, по которому легко восстанавливается структура базы

Забавно :)

Когда мы официально (через правительство Карелии) обратились за данными, они нам его дали

Это очень здорово. Кстати, есть ещё одна база данных, сборная солянка нескольких. Количество записей меньше, чем у «Мемориала», зато источников больше: http://ipc.antat.ru/Ref/all.asp

PastorGL 2012

Комментарий для Евгения Степанищева:

Кстати, есть ещё одна база данных, сборная солянка нескольких. Количество записей меньше, чем у «Мемориала», зато источников больше

Эта база не является официально признанной как архив, и её нельзя использовать для проектов, которые делаются по госзаказу.

Sergey Cheban (sergey-cheban.livejournal.com) 2012

Комментарий для oldTV:

Ответ такой: мы будем исправлять базу, но только по визуальному факту ошибки.

Идея простая: база должна 1:1 соответствовать документам. Если в документе ошибка, нужно вносить изменения в бумажный документ, и только после этого — в базу.

navsource 2012

У ОБД одна проблема — они рассматривают базу не как список дел с картинками, а как данные о людях
Поэтому нет нормальной возможности посмотреть только то, что нужно — нет опубликованного списка дел.
Для поиска родственников это нормально, а для поиска материалов уже нет

Приходится прокачивать все подряд в поисках ярких дел.
Те информационно полный аут и руки оторвать разработке, а на практике вполне можно жить.
Будем надеяться что пару лет хотя бы ничего не поменяется и все прокачается.

Нет конечно понимания что должны ОБД сразу раздавать торрентами по делам (особенно тем, что не по людям)