Какие сведения мы извлекаем из документов?
Сейчас индексирование на Документариуме, в первую очередь, направлено на размещение информации о предках. Поэтому обрабатываются только те страницы, на которых упоминается хотя-бы одна персона.
Сведения, которые мы размещаем, изначально ориентированы на поиск извне: индексация в поисковых системах — это обязательное условие проекта (на данный момент полнее всего содержимое сайта представлено в индексе Google). Поэтому тексты, привязанные к страницам документов, скомпонованы таким образом, чтобы строка в поисковой выдаче была максимально информативной. Вот какова конструкция обычной записи:
- имя человека в том виде как оно указано в документе
- реконструкция фамилии, имени, отчества в квадратных скобках (если эти данные в таком виде уже не указаны в исходном тексте)
- общие данные о персоне, которые можно извлечь из текста документа: даты, места, события, личный или общественный статус
Например, запись из исповедальной ведомости может выглядеть так:
Борис Иванов Голубев [Голубев Борис Иванович], 35 лет (на 1865), Рига; Ярославская губерния, Борисоглебский уезд, Новобогородицкая волость, деревня Выдра, крестьянин
или так:
Сергий [Варницкий Сергей Фомич], 5 лет (на 1865), Рига, сын протоиерея
а запись из алфавитного списка военкомата может быть такой:
Ахапкин Александр Кузьмич 1905 года рождения, убыл в РККА 26.6.1941 г., рядовой состав, вернулся 12.6.1942 г., Высоковск, Место жительства: г. Высоковск, корпус № 8, кв. 88
Каков порядок индексирования?
Мы используем сервис Гугл Класс поэтому всем желающим присоединиться к процессу нужно или уже иметь почту на Gmail или её завести.
Порядок такой:
Вы заполняете заявку, отправляете её. После чего Вам приходит уведомление (Gmail почему-то помещает его во вкладку «Промоакции»). Через ссылку в этом уведомлении Вы попадаете на страницу индексации проекта Документариум в тот раздел, который Вы выбрали при заполнении заявки.
Потом Вы получаете задание. Обычно необходим набор какого-то одного типа данных, например — имён. Другой индексатор может набирать даты, третий — названия мест из этого же документа. В задании есть краткая инструкция и ссылка на изображение страницы документа, которую надо индексировать. Вы здесь же создаёте документ, вводите туда текст, в соответствии с заданием, и сдаёте его.
Опыт показывает, что при раздельном наборе данных (особенно табличных) скорость индексирования повышается. Дальше мы проверяем полученные записи и собираем их в общую таблицу. Из этой таблицы экспортируем код для вставки на страницу сайта.
Где мы размещаем имена индексаторов?
При Вашем согласии, мы ставим на странице документа, в индексации которого Вы принимали участие, Ваше имя и ссылку на профиль в социальной сети или на персональную страницу.