Индексирование текстов

Какие сведения мы извлекаем из документов?

Сейчас индексирование на Документариуме, в первую очередь, направлено на размещение информации о предках. Поэтому обрабатываются только те страницы, на которых упоминается хотя-бы одна персона.

Сведения, которые мы размещаем, изначально ориентированы на поиск извне: индексация в поисковых системах — это обязательное условие проекта (на данный момент полнее всего содержимое сайта представлено в индексе Google). Поэтому тексты, привязанные к страницам документов, скомпонованы таким образом, чтобы строка в поисковой выдаче была максимально информативной. Вот какова конструкция обычной записи:

  • имя человека в том виде как оно указано в документе
  • реконструкция фамилии, имени, отчества в квадратных скобках (если эти данные в таком виде уже не указаны в исходном тексте)
  • общие данные о персоне, которые можно извлечь из текста документа: даты, места, события, личный или общественный статус

Например, запись из исповедальной ведомости может выглядеть так:

Борис Иванов Голубев [Голубев Борис Иванович], 35 лет (на 1865), Рига; Ярославская губерния, Борисоглебский уезд, Новобогородицкая волость, деревня Выдра, крестьянин

или так:

Сергий [Варницкий Сергей Фомич], 5 лет (на 1865), Рига, сын протоиерея

а запись из алфавитного списка военкомата может быть такой:

Ахапкин Александр Кузьмич 1905 года рождения, убыл в РККА 26.6.1941 г., рядовой состав, вернулся 12.6.1942 г., Высоковск, Место жительства: г. Высоковск, корпус № 8, кв. 88

Каков порядок индексирования?

Мы используем сервис Гугл Класс поэтому всем желающим присоединиться к процессу нужно или уже иметь почту на Gmail или её завести.

Порядок такой:

Вы заполняете заявку, отправляете её. После чего Вам приходит уведомление (Gmail почему-то помещает его во вкладку «Промоакции»). Через ссылку в этом уведомлении Вы попадаете на страницу индексации проекта Документариум в тот раздел, который Вы выбрали при заполнении заявки.

Потом Вы получаете задание. Обычно необходим набор какого-то одного типа данных, например — имён. Другой индексатор может набирать даты, третий — названия мест из этого же документа. В задании есть краткая инструкция и ссылка на изображение страницы документа, которую надо индексировать. Вы здесь же создаёте документ, вводите туда текст, в соответствии с заданием, и сдаёте его.

Опыт показывает, что при раздельном наборе данных (особенно табличных) скорость индексирования повышается. Дальше мы проверяем полученные записи и собираем их в общую таблицу. Из этой таблицы экспортируем код для вставки на страницу сайта.

Где мы размещаем имена индексаторов?

При Вашем согласии, мы ставим на странице документа, в индексации которого Вы принимали участие, Ваше имя и ссылку на профиль в социальной сети или на персональную страницу.