• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Аналитический обзор методов разрешения морфологической многозначности

Рамиль Раисович Гатауллин
98-114
Аннотация:

Проанализированы основные методы разрешения морфологической многозначности применительно к татарскому языку. Описано текущее состояние работ и приведены основные результаты по данному направлению, сделаны выводы о применимости методов разрешения с оценкой их точности.

Ключевые слова: разрешение морфологической многозначности, контекстные методы, статистико-вероятностные методы, татарский язык.

Комбинированное электронное представление печатных изданий

С.И. Трифонов
Аннотация: Комбинированное электронное представление позволяет читателю пользоваться как графическим изображением страниц печатного издания, так и полным массивом текстовой информации. В статье ставятся и обсуждаются различные вопросы поддержки этого представления в рамках электронной библиотеки. Предлагаемые решения применяются как в технологии подготовки информации, так и в архитектуре сервера электронной библиотеки.
Ключевые слова: электронная библиотека, электронное представление, комбинированное представление печатных изданий.

Современные информационные технологии и письменное наследие

В.А. Баранов, И.С. Маргулис
Аннотация: В статье излагаются результаты исследований групп специалистов, включающих авторов, целью которых является изучение и сохранение письменного наследия. Выявляются проблемы, касающиеся согласования форматов (в частности, кодировок), и предлагаются пути решения, требующие консолидированного подхода специалистов. Статья обобщает предварительные результаты работы созданного с данной целью сообщества и организованного им цикла конференций.
Ключевые слова: сохранение письменного наследия, согласование форматов, электронное хранение текстов, электронное представление текстов, лингвистические исследования, применение информационных технологий.

Алгоритмический фреймворк для извлечения информационного ядра веб-страницы

Хамза Салем, Александр Сергеевич Тощев
931-942
Аннотация:

Представлен новый точный алгоритм MCE извлечения основного содержимого с новостных веб-сайтов. Предложенный алгоритм использует анализ структуры объектной модели документа (DOM) и метрики плотности контента
для идентификации и извлечения информационного ядра веб-страницы. Реализованный подход объединяет три ключевые особенности: максимальное количество прямых дочерних элементов с текстом, максимальное текстовое содержимое без дочерних элементов, содержащих текст, и ближайшее расположение
к средней глубине узла. Алгоритм продемонстрировал лучшую производительность по сравнению с существующими решениями, такими как Boilerpipe и Readability, достигая 99,96% точности, 99,69% полноты и 99,80% F1-меры на использованном комплексном наборе данных из 500 разнообразных веб-страниц. Языково-независимый дизайн делает алгоритм особенно эффективным для извлечения мультиязычного контента, включая языки со сложной структурой, такие, например, как арабский.

Ключевые слова: NLP, извлечение данных, языково-независимый алгоритм, RAG (Retrieval-Augmented Generation).

От сканированных изображений к базе знаний. Модель и стратегия научных исследований

Дэвид Бирман, Дженнифер Трант
Аннотация: В следующем десятилетии печатное наследие мира будет оцифровано. Если национальные правительства будут играть в этом процессе активную роль, то он сможет принести значительные выгоды для развития человечества путем демократизации доступа к различным печатным материалам. Предпосылками успеха являются всеобъемлющие программы оцифровки, которые делают общедоступными изображения страниц, а также позволяют комбинировать алгоритмы оптического распознавания текстов (OCR) с декодированием содержания, заложенного в типографских традициях, представляя слова в контексте их функций в документах – в заглавиях, ссылках, подписях к иллюстрациям и т.д.
Связывание сканированных страниц с библиографическими метаданными и использование оптического распознавания текстов – распространенный метод получения дополнительной информации при сканировании книг. Но для извлечения полезного знания, содержащегося в типографских традициях (печать и представление страницы) требуются дальнейшие исследования, чтобы их можно было использовать при декодировании электронных версий печатных книг. В данной работе исследуются некоторые вопросы кодирования информации, заключенной в печатных традициях, и то, как получающиеся в итоге базы знаний и семантический анализ могут использоваться для получения обогащенного культурного контента. Рекомендуемые национальные стратегии могут превратить электронные версии печатных текстов во взаимосвязанные базы знаний и предоставить для всех доступ к печатному наследию, сохраняя его разнообразие.

Подход к созданию корпуса текстов видеоигр на основе универсальной структуры

Никита Рамильевич Нурлыгаянов, Влада Владимировна Кугуракова
578-597
Аннотация:

Рассмотрена проблема высокой и увеличивающейся стоимости разработки видеоигр, для её решения предложено применить процедурную генерацию контента, что позволит снизить затраты на разработку.


Работа является частью масштабного исследования по автоматическому созданию прототипов видеоигр и посвящена обработке игровых сценариев, то есть текстов на естественном языке. Предложено выделять из сценариев необходимые сущности и передавать их дальнейшим шагам алгоритма, который по текстовым описаниям будет генерировать игровые ресурсы.


Существует несколько публикацией, посвящённых обработке игровых текстов, в которых предложено несколько различных структур хранения выделенной информации. В настоящей статье предложен универсальный формат, который подойдёт для обработки текста любой видеоигры и позволит создать корпус текстов для использования в дальнейших исследованиях и автоматической генерации игровых прототипов.

Ключевые слова: PCG, NLP, разработка видеоигр.
1 - 6 из 6 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2026 Казанский (Приволжский) федеральный университет; Институт развития информационного общества