• Main Navigation
  • Main Content
  • Sidebar

Электронные библиотеки

  • Главная
  • О нас
    • О журнале
    • Цели и задачи
    • Тематика
    • Главный редактор
    • Редакция
    • Отправка материалов
    • Заявление об открытом доступе
    • Заявление о конфиденциальности
    • Контакты
  • Текущий выпуск
  • Архивы
  • Регистрация
  • Вход
  • Поиск
Издается с 1998 года
ISSN 1562-5419
16+
Language
  • Русский
  • English

Найти

Расширенные фильтры

Результаты поиска

Автоматическое добавление SEO-метаданных в новостные статьи с использованием QWEN-coder

Хамза Салем, Александр Сергеевич Тощев
287-303
Аннотация:

Обобщен ранее разработанный конвейер обогащения новостных статей структурированными метаданными и представлена его обновленная конфигурация, в которой GPT-3 (Generative Pre-trained Transformer 3) – языковая модель от компании OpenAI – заменен на открытую модель Qwen-Coder. Новая версия, как и ранее, использует набор из 400 страниц, отобранных через Google News, и остается совместимой с Google Rich Results Test. Эксперименты показали, что качество, сопоставимое с GPT-3, достижимо при локальном запуске на типовом офисном настольном компьютере (CPU, без GPU). Установлено, что замена, указанная выше, снижает зависимость от платных облачных сервисов и обеспечивает более высокую производительность по сравнению с GPT-версией; дана оценка сходства результатов обогащения для Qwen-Coder относительно базовой реализации на GPT-3. Предложенные инструменты снижают порог внедрения семантической разметки и расширяют ее практическое применение, в том числе в цифровой журналистике.

Ключевые слова: семантическая паутина, майнинг шаблонов, Qwen-Coder, новостные веб-страницы, читабельность, структурированные данные.

Результаты исследований по обнаружению заимствований с использованием анализа цитирований

Вадим Николаевич Гуреев, Николай Алексеевич Мазов
322-331
Аннотация:

Переводной плагиат как одна из наиболее распространенных в научном информационном пространстве разновидностей плагиата представляет собой трудноразрешимую проблему, поскольку практически не поддается автоматизированному выявлению. Между тем за последние пять лет в этом направлении наблюдается прогресс. Авторами настоящей работы, а также группой зарубежных исследователей из нескольких университетов независимо друг от друга был предложен подход к выявлению плагиата на основе анализа цитирований, при котором для анализируемой подозрительной публикации находится возможный первоисточник с идентичным или схожим списком цитируемой литературы, что в итоге позволяет сличать текст на разных языках. Разработанная методика обнаружения неправомерных заимствований в научных текстах успешно прошла тестовые исследования. В статье приведены результаты четырехлетних исследований.

Ключевые слова: обнаружение заимствований, переводной плагиат, выявление плагиата, анализ цитирования, база данных цитирований.

Абстрактивная суммаризация новостей внешней торговли на основе нового специализированного корпуса данных

Дарья Андреевна Лютова, Валентин Андреевич Малых
1120-1137
Аннотация:

Представлен TradeNewsSum — корпус для абстрактивной генерации аннотаций к новостям внешней торговли, охватывающий русско- и англоязычные публикации из профильных источников. Все рефераты подготовлены вручную по унифицированным правилам. Проведены эксперименты с дообучением трансформерных и seq2seq-моделей и автоматическую оценку по схеме LLM-as-a-judge. Наилучшие результаты показала LLaMA 3.1 в режиме инструкционного промптинга, продемонстрировав высокие значения по метрикам, включая фактологическую полноту.

Ключевые слова: абстрактивное реферирование, многоязычный корпус, новости внешней торговли, санкции, торговые режимы, TradeNewsSum, трансформеры, большие языковые модели, LLM-as-a-judge, NER-оценка сущностей.

Исследование квантования больших языковых моделей: оценка эффективности с акцентом на русскоязычные задачи

Дмитрий Романович Пойманов, Михаил Сергеевич Шутов
1138-1163
Аннотация:

Квантование стало ключевой техникой сжатия и ускорения больших языковых моделей (LLM). Несмотря на то, что исследования низкобитного квантования активно развиваются применительно к англоязычным LLM, его влияние на морфологически богатые и разнородные по ресурсам языки, включая русский, остается изученным значительно хуже. Поэтому требуются дополнительные исследования этого вопроса в связи с развитием высокоэффективных русскоязычных и многоязычных LLM.


Мы провели систематическое исследование квантования предобученных моделей в эффективные 2.0—4.25 бита на параметр для современных русскоязычных LLM различного масштаба от 4 до 32 млрд параметров (4 B и 32 B). Экспериментальная часть охватывает как стандартное равномерное квантование, так и специализированные низкобитные форматы. Полученные результаты выявили несколько ключевых тенденций: i) устойчивость русскоязычных LLM к квантованию варьируется в зависимости от архитектуры и размера модели; ii) 4-битное квантование демонстрирует высокую надежность, особенно при использовании продвинутых форматов; iii) 3-битное и 2-битное квантования оказались наиболее чувствительными к указанным калибровки. Полученные эмпирические данные демонстрируют необходимость учета домена модели при использовании различных методов квантования.

Ключевые слова: квантование нейросетей, сжатие и оптимизация больших языковых моделей.

Требования к информационным компетенциям экспертов при оценке проектов прикладных научных исследований

Ирина Болеславовна Рутковская, Александр Александрович Мусатов
443-449
Аннотация: Представлены результаты проведения глубинных интервью и анкетного опроса представителей научно-технической сферы с целью определения информационных компетенций, необходимых для проведения экспертизы проектов прикладных научных исследований и экспериментальных разработок в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014–2020 годы».
Ключевые слова: прикладные научные исследования, научно-техническая экспертиза, независимые эксперты, информационные компетенции, глубинные интервью, анкетный опрос.

Семантическое сходство в задаче аспектно-эмоционального анализа

Евгений Вячеславович Котельников, Павел Дмитриевич Блинов
120-137
Аннотация:

Исследуется проблема аспектно-эмоционального анализа текста. По сравнению с общим анализом тональности такой вариант является более сложным по причине наличия ряда сопутствующих подзадач, таких, как выделение аспектных терминов, определение тональности по отношению к этим терминам и аспектным категориям. Однако решение данной проблемы значительно расширяет возможности систем автоматического анализа неструктурированного текста.

Приведен обзор предыдущих работ в области аспектно-эмоционального анализа, описаны обучающие и тестовые данные семинара SentiRuEval. Для задачи извлечения аспектных терминов использовано векторное пространство распределенных представлений слов. Тональность аспектных терминов определяется на основе функций совместной информации и семантического сходства. Приведены сравнительные результаты на тестовых данных и заключительные выводы.

Ключевые слова: аспектно-эмоциональный анализ текста, взаимная информация, распределённые представления слов, машинное обучение, SentiRuEval.

Автоматическая разметка обучающих выборок в компьютерном зрении с использованием методов машинного обучения

Алексей Константинович Журавлёв, Карен Альбертович Григорян
718-729
Аннотация:

Рассмотрена проблема автоматической разметки обучающих выборок в области компьютерного зрения с использованием методов машинного обучения.


Разметка данных является ключевым этапом в разработке и обучении моделей глубокого обучения, однако процесс создания размеченных данных зачастую требует значительных временных и трудовых затрат. В статье предложен механизм автоматической разметки, основанный на использовании сверточных нейронных сетей и методов активного обучения.


Предложенная методология включает анализ и оценку существующих подходов к автоматической разметке. Эффективность предложенных решений оценена на общедоступных наборах данных. Результаты показали, что предложенный метод в значительной мере сокращает время, необходимое для разметки данных, но в любом случае требует вмешательства оператора-разметчика.


Обзор литературы включает анализ современных методов разметки и существующих автоматических систем, что позволяет лучше понять контекст и преимущества предлагаемого подхода. В заключении обсуждены достижения, ограничения и возможные направления для будущих исследований в данной области.

Ключевые слова: компьютерное зрение, машинное обучение, автоматическая разметка данных, обучающая выборка, сегментация изображений.

Тестирование методов анализа тональности текста, основанных на словарях

Елена Викторовна Тутубалина, Владимир Владимирович Иванов, Мария Загулова, Никита Мингазов, Ильсеяр Алимова, Валентин Малых
138-162
Аннотация:

Технологии анализа тональности текста развиваются интенсивно, что обусловлено ростом объемов открытых источников, представляющих мнения пользователей интернета по различным вопросам. В статье описаны методы для анализа тональности текстов отзывов и коротких сообщений (твитов), приводятся результаты оценки их качества, которая производилась в рамках российского семинара SentiRuEval-2015.

Ключевые слова: извлечение информации, анализ тональности, классификация текстов, машинное обучение с учителем.

Балльно-рейтинговая система оценки результатов учебной деятельности бакалавров при изучении дисциплины «Алгебра»

Екатерина Олеговна Шумакова, Светлана Анатольевна Севостьянова
486-491
Аннотация: Представлен вариант балльно-рейтинговой системы оценивания учебных достижений студентов при изучении дисциплины «Алгебра». Описаны этапы формирования итоговой оценки и ее коррекции в течение семестра.
Ключевые слова: балльно-рейтинговая система, математические дисциплины, алгебра, оценка результатов.
1 - 9 из 9 результатов
Информация
  • Для читателей
  • Для авторов
  • Для библиотек
Отправить материал
Текущий выпуск
  • Логотип Atom
  • Логотип RSS2
  • Логотип RSS1

Электронные библиотеки

ISSN 1562-5419

Информация

  • О журнале
  • Цели и задачи
  • Тематика
  • Руководство для авторов
  • Отправка материалов
  • Заявление о конфиденциальности
  • Контакты
  • eLIBRARY.RU
  • dblp computer science bibliography

Отправить статью

Авторам нужно зарегистрироваться в журнале перед отправкой материалов, или, если вы уже зарегистрированы, можно просто войти со своей учетной записью и начать процесс отправки, состоящий из пяти шагов.

Отправить материал
Больше информации об этой издательской системе, платформе и рабочем процессе от OJS/PKP.

© 2015-2026 Казанский (Приволжский) федеральный университет; Институт развития информационного общества