Random Historical Data

Нас до сих пор впечатляет размах, с которым происходит повсеместная оцифровка архивных материалов. Коллекции FamilySearch, Saaga, Raduraksti, ОБД «Мемориал» и десятки других иллюстрируют системный подход к делу. Причём, разный. Где-то, как например у FamilySearch, данные из оцифрованных документов индексируются. А в таких проектах, как Raduraksti, создатели ограничились только публикацией изображений.

Крупные коллекции оцифрованных документов характеризуются чёткими рамками и иллюстрируют системный подход к делу

Параллельно с этим существуют генеалогические форумы и отдельные сайты, страницы и группы в соцсетях, набитые сверх всякой меры разными выписками, фрагментами сканов, старыми фотографиями, какими-то списками, разрозненными биографическими и краеведческими сведениями и прочим информационным шумом. Однако эта словесная свалка ничто по сравнению со свалкой изображений. Интерес к генеалогии растёт, техника фотографирования и хранения данных совершенствуется. Возможности копирования становятся шире. До нас доходят отголоски баталий по поводу бесплатного самостоятельного копирования в архивах. А здесь, в Риге мы своими глазами видим насколько выросло число людей, ведущих съёмку в читальном зале LVVA после того, как архив перестал брать за это плату.

Самостоятельное копирование документов приобретает всё больший размах, но отличается фрагментарностью и хаотичностью. И главное — результатами этого процесса очень тяжело или невозможно воспользоваться

Итак, если с одной стороны мы наблюдаем целенаправленные усилия по массовому систематическому копированию документов крупными организациями при хорошем финансировании, то с другой — хаотичный процесс оцифровки фрагментов дел всеми желающими там, куда крупные фирмы пока не добрались и неизвестно — доберутся ли? Мы в полной мере участвуем в этом процессе, фотографируя документы в архивах в ходе генеалогических исследований, и по собственному опыту знаем, что происходит дальше с этими фотографиями: послужив сырьём для написания отчёта, они оседают на домашних компьютерах, файлообменниках, в небольшом количестве появляются в блогах и соцсетях. В общем, практически не работают по назначению. Мы решили изменить эту ситуацию. Тем более, что в документах, которые мы отсняли, много сведений о совершенно посторонних людях.

Как заставить весь этот массив самостоятельно скопированных документов работать по назначению?

Запустив проект «Документариум», мы стали просить у людей обратную связь по поводу него. Картина вышла ожидаемая: мы выглядели очередными сумасшедшими, которые хотят оцифровать всё и вся, не имея для этого сколько-нибудь значительных ресурсов. Историк-генеалог Виталий Семенов, явно не без иронии, окрестил то, чем мы занимаемся, словосочетанием Random Historical Data. Мы, поначалу, посмеялись, а потом подумали: «А почему бы и нет?» В конце концов, дело не в названии, а в сути.

С нашей точки зрения понятие Random Historical Data должно базироваться на трёх основных принципах:

  1. Обязательное размещение образов документов и привязка их к четкой структуре.
    В нашем случае это общепринятая в архивах иерархия, например, хранилище — фонд — опись — дело — лист. Образы должны быть приемлемого качества для того, чтобы любой желающий мог их использовать в работе с документом. Привязка к структуре позволяет добавлять в произвольном порядке части документа и они будут занимать положенное им место.
  2. Обязательное индексирование документов и привязка проиндексированного текста к образу страницы.
    В идеале это должны быть накладывающиеся друг на друга слои. Красноречивым примером могут послужить гугл-карты: можно увидеть схему, а можно переключиться на спутниковый снимок. У нас изображение и текст пока разнесены, но находятся в пределах одной страницы. По мере индексации документов, мы планируем выпускать их в виде PDF-файлов, в которых этот принцип многослойности и будет реализован.
  3. Приложение максимума усилий для индексации проекта поисковыми системами.
    Внутренний поиск, разумеется, на сайте есть но он носит вспомогательную роль. Именно индексация поисковыми системами важнее всего, поскольку позволяет находить размещённую у нас информацию людям, которые слыхом не слыхивали о нашем проекте.

Отказ от любого из вышеперечисленных принципов лишает смысла смысла всю затею. В идеале, должна быть следующая картина: человек набирает в поисковике имя и фамилию своего предка, в поисковой выдаче видит ссылку на наш сайт, переходит по ней на нужную страницу. Тут у него есть возможность оценить годится ли ему то что он нашёл. Он может посмотреть в каком документе и в каком контексте упоминается искомая фамилия, ознакомится с образом документа, увидеть где хранится оригинал, посмотреть какие ещё документы из этого хранилища доступны. Здесь очень полезными могут оказаться оцифрованные архивные описи.

Чем больше будет проектов, которые воспримут принципы Random Historical Data — тем лучше

Мы не стремимся к тому, чтобы все документы, которые фотографируют люди в архивах, размещались непременно у нас. Если будут появляться проекты, базирующиеся на тех же принципах, что и «Документариум» — мы будем только рады. Для нас важно провести в жизнь сам подход к использованию хаотически появляющихся цифровых копий. Эти копии должны работать и приносить пользу не только тем, кто восстанавливает родословную, но, в идеале, и представителям целого ряда профессий: историкам, социологам и т. д.