Аннотация:
В следующем десятилетии печатное наследие мира будет оцифровано. Если национальные правительства будут играть в этом процессе активную роль, то он сможет принести значительные выгоды для развития человечества путем демократизации доступа к различным печатным материалам. Предпосылками успеха являются всеобъемлющие программы оцифровки, которые делают общедоступными изображения страниц, а также позволяют комбинировать алгоритмы оптического распознавания текстов (OCR) с декодированием содержания, заложенного в типографских традициях, представляя слова в контексте их функций в документах – в заглавиях, ссылках, подписях к иллюстрациям и т.д.
Связывание сканированных страниц с библиографическими метаданными и использование оптического распознавания текстов – распространенный метод получения дополнительной информации при сканировании книг. Но для извлечения полезного знания, содержащегося в типографских традициях (печать и представление страницы) требуются дальнейшие исследования, чтобы их можно было использовать при декодировании электронных версий печатных книг. В данной работе исследуются некоторые вопросы кодирования информации, заключенной в печатных традициях, и то, как получающиеся в итоге базы знаний и семантический анализ могут использоваться для получения обогащенного культурного контента. Рекомендуемые национальные стратегии могут превратить электронные версии печатных текстов во взаимосвязанные базы знаний и предоставить для всех доступ к печатному наследию, сохраняя его разнообразие.