Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Тактическая сортировка управленческих задач при их администрировании посредством меток Приоритетов, Спецификаций и Аффилиаций

Феликс Освальдович Каспаринский

733-745

Аннотация: Проанализирована специфика функционала программ управления стратегическими, тактическими и оперативными задачами. Предложена методика предварения названий оперативных задач тактическими метками Приоритетов, Спецификаций и Аффилиаций. Аббревиатуры меток формируются таким образом, чтобы обеспечить правильную расстановку приоритетов при сортировке задач по алфавитному порядку. Квадранты матрицы Приоритетов Д. Эйзенхауэра обозначаются двухбуквенными метками: важно срочно (IF – Important, Fast); важно бессрочно (IS – Important, Slow); не важно, но оперативно (UF – Unimportant, Fast): не важно и не срочно (US – Unimportant, Slow). Метки матрицы Спецификаций информационной среды (RA, RI, SA, SI) компонуются из взаимоисключающих свойств доступности Сети (I – Internet и A – Autonomous) и наличия редуцированного или специального функционала (R– Reduced и S – Special). Метки Транспортной спецификации (TA, TB, TC, TP) позволяют сортировать задачи, требующие перемещения (T – Translocation) на самолёте (A – Airplane), автобусе (B – Bus), автомобиле (C – Car) и пешком (P – Pedestrian), соответственно. Трёхбуквенные метки Аффилиации (принадлежности физическому или юридическому лицу) формируются из первых букв имени, отчества и фамилии или наименования лаборатории, компании, проекта. Тактические метки ускоряют принятие решений при формировании ежедневного списка оперативных задач.

Ключевые слова: задача, планирование, управление, приоритет, спецификация, аффилиация, метка, оперативный, тактический.

Проектирование интегрированных заданий при обучении компьютерному моделированию

Ольга Александровна Широкова , Татьяна Юрьевна Гайнутдинова

378-393

Аннотация:

Рассмотрено возможное использование LMS Moodle при разработке курса «Использование компьютерного моделирования в образовании». Курс основан на внедрении в учебный процесс междисциплинарной интеграции высшей математики, компьютерного моделирования, программирования и предполагает использование систем компьютерной математики и программных сред. Представлены примеры конкретных интегрированных заданий.

При проектировании учебного курса «Использование компьютерного моделирования в образовании» в LMS Moodle использован следующий набор элементов: «лекция», «задание», «тест», «форум», «ресурс», «wiki», «чат», «глоссарий».

Использование методики составления интегрированных заданий на базе LMS Moodle показало, что: интегрированные задания с использованием информационных технологий способствуют повышению уровня усвоения материала сложных разделов высшей математики; содержание курса высшей математики является фундаментальной основой материала, изучаемого в предлагаемом курсе, и способствует глубокому пониманию математических дисциплин; интегрированные проектные задания формируют практические умения и навыки компьютерного моделирования с использованием программирования в различных программных средах.

Ключевые слова: интегрированные задания, высшая математика, компьютерное моделирование, программирование, LMS Moodle, системы компьютерной математики.

How to Assign Grades to Tasks so as to Maximize Student Efforts

Laxman Bokati, Vyacheslav Kalashnikov, Natalalia Kalashnykova, Olga Kosheleva, Vladik Kreinovich

773-779

Аннотация: In some classes, students want to get a passing grade (e.g., C or B) by spending the smallest amount of effort. In such situations, it is reasonable for the instructor to assign the grades for different tasks in such a way that the resulting overall student's effort is the largest possible. In this paper, we show that to achieve this goal, we need to assign, to each task, the number of points proportional to the efforts needed for this task.

Ключевые слова: Grade assignment, maximizing student efforts.

Базы знаний для описания информационных ресурсов в молекулярной спектроскопии. 3. Формирование базовой и прикладной онтологии

А.И. Привезенцев, Д.В. Царьков, А.З. Фазлиев

Аннотация: Статья посвящена описанию свойств решений задач в предметной области «Количественная спектроскопия» и детализирует результаты работы [1]. Для представления свойств решений задач используется язык OWL DL. В качестве примера рассмотрена прикладная онтология источников информации о свойствах решений прямой и обратной задачи нахождения вакуумных волновых чисел в молекулярной спектроскопии диоксида углерода и его изотопологов. Показано, что создание источника информации, характеризующих свойства решения задачи, позволяет классифицировать решения задач количественной спектроскопии и организовывать семантический поиск достоверных данных в публикациях. Дано краткое описание особенностей табличного метода используемого в машине вывода FACT++.

Ключевые слова: количественная спектроскопия, язык OWL DL, вакуумные волновые числа, молекулярная спектроскопия диоксида углерода, семантический поиск.

Исследование когнитивной функции при генерации эллиптических предложений в планиметрических задачах

Владимир Андреевич Пархоменко, Ксения Александровна Найденова, Татьяна Александровна Мартирова, Александр Валентинович Щукин

316-335

Аннотация:

Работа посвящена изучению когнитивной функции, связанной с генерацией эллиптических предложений в русском языке. Исследование проводилось на основе тестирования этой когнитивной способности с помощью компьютерной системы, специально разработанной авторами для этой цели. Тестирование этой когнитивной способности предложено и реализовано впервые. Система является расширением Moodle и открыто размещена в репозитории github. Эллиптические конструкции ограничиваются глагольными и именными эллипсисами, которые теоретически возможно полностью восстановить на основе контекста предложения. Исследование проводилось с участием в качестве респондентов студентов СПбПУ. В качестве предметной области были выбраны тексты планиметрических задач. В результате анализа данных тестирования получены следующие результаты: установлено влияние знаний респондента предметной области (планиметрии) на результаты тестирования; обнаружена тенденция к самообучению респондентов, что проявляется в сокращении времени и увеличении баллов по мере прохождения тестов; показано, что респонденты слабо мотивированы, если не видят отзыв на ответ по выполненному заданию.

Обсуждены проблемы дальнейшего развития системы тестирования и её применения при адаптации опросников (заданий) для оценки знаний студентов СПбПУ в области автоматизации обнаружения ошибок в программах, а также диагностики функционального состояния специалистов операторского профиля и экспресс-диагностики деменции. Перспективным представляется также применение системы для совершенствования процессов синтаксического разбора эллиптических предложений и автоматизации восстановления эллипсисов в предметной области планиметрии.

Ключевые слова: онлайн-система тестирования, разработка системы тестирования, когнитивная функция, эллипсис, планиметрия.

Базы знаний для описания информационных ресурсов в молекулярной спектроскопии. 5. Качество экспертных данных

А.Ю. Ахлёстин, Н.А. Лаврентьев, А.И. Привезенцев, А.З. Фазлиев

Аннотация: Показано, что доверие к контенту информационных ресурсов можно оценивать с помощью критерия опубликования и разделять ресурсы на доверяемую и сомнительную части. Задача оценки доверия состоит их четырех подзадач: (1) построения мультимножеств физических величин, содержащихся в первичных источниках данных, (2) согласования значений физических величин, (3) формирования количественных ограничений для критерия опубликования в разных интервалах изменения физических величин и (4) декомпозиции экспертных данных. Кратко описаны критерии достоверности спектральных данных и ограничения необходимые для решения задач согласования данных. Представлено табличное представление результатов согласования. На примере вакуумных волновых чисел описаны ограничения характерные для критерия опубликования. Оценки доверия, полученные из решения задачи декомпозиции, представлены в форме OWL-онтологий. Построение онтологической базы знаний подобного типа для виртуальных центров данных в дисциплинах с большими объемами данных измерений обеспечит автоматический выбор информационных ресурсов с высокой степенью доверия.

Ключевые слова: спектроскопия, согласование данных, доверие к контенту ресурсов, критерий опубликования.

О проблеме актуальности прикладных задач в информационном обществе

Елена Кирилловна Каштанова

392-400

Аннотация: Информационное общество характеризуется постоянным обновлением идей, теорий, техники и технологий. В этих условиях достижение актуального уровня для прикладных задач представляет определенную проблему. В статье предложены варианты формирования комплекса прикладных задач.

Ключевые слова: прикладная задача, информационное общество, компетенция, теория вероятностей, математическая статистика.

Учёт структуры документа в методе автоматического аннотирования математических понятий в образовательных текстах

Константин Сергеевич Николаев

558-577

Аннотация:

Обогащение образовательных текстов семантическим содержимым (в частности, дополнение документа гиперссылками на страницы сервиса, отображающего подробную информацию о понятиях, используемых в тексте) способствует повышению эффективности усвоения материала обучающимися. Существующие методы семантической разметки образовательных текстов не учитывают структурные особенности таких документов, что приводит к избыточному распознаванию понятий.

В статье описано развитие метода автоматического аннотирования математических понятий в образовательных математических текстах путем добавления функционала для учета структуры образовательного документа. Основное назначение метода заключается в обработке образовательных материалов курса дистанционного образования «Технология решения планиметрических задач». Соблюдение единого шаблона при создании страниц курса позволяет применить анализ веб-разметки страниц и ключевых слов, примененных создателями курса. Основной задачей в данном процессе является определение типа ячеек таблицы, в которых находятся текстовые фрагменты образовательных материалов. В соответствии с рекомендациями создателей курса, определения необходимо выделять в ячейках, содержащих постановку задачи, а также в тех блоках, где указаны входные данные задачи. Определение типа ячеек таблиц производится с помощью анализа их атрибутов и поиска ключевых слов в их содержимом. Такое ограничение распознаваемых фрагментов текста позволяет улучшить восприятие страниц курса учеником и повысить качество усвоения учебного материала.

Ключевые слова: семантический анализ, математическая онтология, дидактические отношения, математическое образование, разметка документа.

Применение машинного обучения к задаче генерации поисковых запросов

Александр Михайлович Гусенков, Алина Рафисовна Ситтикова

272-293

Аннотация:

Исследованы две модификации рекуррентных нейронных сетей: сети с долгой краткосрочной памятью и сети с управляемым рекуррентным блоком с добавлением механизма внимания к обеим сетям, а также модель Transformer в задаче генерации запросов к поисковым системам. В качестве модели Transformer использована модель GPT-2 от OpenAI, которая обучалась на запросах пользователей. Проведен латентно-семантический анализ для определения семантических сходств между корпусом пользовательских запросов и запросов, генерируемых нейронными сетями. Для проведения анализа корпус был переведен в формат bag of words, к нему применена модель TFIDF, проведено сингулярное разложение. Семантическое сходство вычислялось на основе косинусной меры. Также для более полной оценки применимости моделей к задаче был проведен экспертный анализ для оценки связности слов в искусственно созданных запросах.

Ключевые слова: обработка естественного языка, генерация естественного языка, машинное обучение, нейронные сети.

Извлечение аспектов товаров или услуг из отзывов потребителей с использованием модели условных случайных полей

Юлия Владимировна Рубцова, Сергей Андреевич Кошельников

203-221

Аннотация: Описана система, принимавшая участие в соревновании SentiRuEval-2015 по автоматическому извлечению аспектов из отзывов и оценке этих аспектов по тональности. В основе разработанной системы лежит алгоритм условных случайных полей (CRF), она использовалась в решении двух подзадач и тестировалась на двух предметных областях: рестораны и автомобили. Для обеих задач и обеих предметных областей показаны высокие показатели метрики полноты. Это означает, что система может вполне успешно находить аспектные термины. Вместе с тем, полученный низкий показатель точности свидетельствует о том, что система принимает за аспектные достаточно много терминов, которые аспектными не являются. В целом же система показала сравнительно хорошие результаты по сравнению с другими участниками соревнования.

Ключевые слова: извлечение знаний, извлечение аспектов, CRF.

О применимости нейросетей в издательском деле

Сухайлии Илхом Ширинбегзода, Даниил Андреевич Шишкин, Богдан Сергеевич Усманов, Николай Михайлович Боргест

960-975

Аннотация:

В работе дана оценка границ применимости больших языковых моделей в редакционных задачах издательского процесса и установлен оптимальный формат взаимодействия между человеком и алгоритмическими системами.

Методологической основой исследования является сравнительный эксперимент, в рамках которого несколько популярных нейросетевых моделей (Alice AI, GigaChat, DeepSeek, Gemini и ChatGPT) выполнен статистический анализ контрольного текста на русском языке. Определялись количественные характеристики текста: числа слов, символов с пробелами и без пробелов, а также количества абзацев. Полученные результаты сопоставлялись с эталонными значениями, установленными с помощью текстового редактора MS Word, использующего детерминированный алгоритм подсчета символов.

Результаты эксперимента показали, что нейросетевые модели демонстрируют различную степень точности при выполнении задач количественного анализа текста. Основной причиной подобных ошибок являются архитектура больших языковых моделей и использование алгоритмов токенизации, которые разрывают прямую связь между символами и внутренним представлением текста в модели.

На основе полученных результатов предложена концепция гибридной архитектуры издательских информационных систем, в которой генеративные языковые модели используются для выполнения творческих и аналитических задач, а операции, требующие строгой формальной точности, передаются специализированным детерминированным микросервисам. Предложенный подход позволяет повысить надежность и предсказуемость работы интеллектуальных издательских систем.

Ключевые слова: искусственный интеллект, издательское дело, большие языковые модели, нейросети, автоматизация, токенизация, редакционный процесс.

Qualitative Analysis of the Relationship Between Teachers and Students`not-Knowing in the Process of Solving Reasoning Tasks

Kevin Fierro, Mourat Tchoshanov, Gulshat Shakirova

749-758

Аннотация: Mason and Spence’s (1999) work demonstrate a detailed view into the concept of knowing. Although they highlight the importance of not-knowing as a first step, it is a topic that is not well researched. This study aims at expanding that research, by analyzing not-knowing expressions from teacher to student and possible connections to be found. During a course of geometric reasoning student teachers were asked to reason with a tangram while simultaneously recording their expressions of not-knowing and reflecting on it periodically. Student teachers were then tasked to teach this lesson to their students, who would also reflect and express their forms of not-knowing. Findings presented no real link between teacher-student expressions of not-knowing, but two major conclusions were made. Individuals altogether struggle conveying their not-knowing clearly and when they did express it, these expressions leaned heavily on not-knowing-that and not-knowing-how forms. A discussion follows to interpret said findings. A conclusion is made detailing key points in the study and what comes next for the concept of not-knowing.

Ключевые слова: knowing, not knowing, secondary school mathematics teachers.

Задача сортировки на графах в олимпиадах по программированию

Михаил Иванович Киндер, Андрей Витальевич Казанцев

384-391

Аннотация: Разобрана задача сортировки данных, отношение порядка между которыми описано в виде отношения смежности вершин на произвольном графе. Выделены подзадачи и вопросы, относящиеся к «окрестности» проблемы; их решение представляет собой своеобразные уровни «погружения» в решение общей задачи. Обсуждены алгоритмы решения отдельных подзадач для графов специального вида, а также различные подходы к решению проблемы сортировки в общем случае. Задача сортировки такого типа предлагалась на Кубке международной школы ISI-Junior по спортивному программированию в июле 2019 года (г. Иннополис).

Ключевые слова: олимпиады по информатике, олимпиады по математике, олимпиады по спортивному программированию, многоуровневые задачи, исследовательские задачи для школьников, задача сортировки на графах.

Семантическое сходство в задаче аспектно-эмоционального анализа

Евгений Вячеславович Котельников, Павел Дмитриевич Блинов

120-137

Аннотация:

Исследуется проблема аспектно-эмоционального анализа текста. По сравнению с общим анализом тональности такой вариант является более сложным по причине наличия ряда сопутствующих подзадач, таких, как выделение аспектных терминов, определение тональности по отношению к этим терминам и аспектным категориям. Однако решение данной проблемы значительно расширяет возможности систем автоматического анализа неструктурированного текста.

Приведен обзор предыдущих работ в области аспектно-эмоционального анализа, описаны обучающие и тестовые данные семинара SentiRuEval. Для задачи извлечения аспектных терминов использовано векторное пространство распределенных представлений слов. Тональность аспектных терминов определяется на основе функций совместной информации и семантического сходства. Приведены сравнительные результаты на тестовых данных и заключительные выводы.

Ключевые слова: аспектно-эмоциональный анализ текста, взаимная информация, распределённые представления слов, машинное обучение, SentiRuEval.

Применение синтетических данных в задаче обнаружения аномалий в сфере информационной безопасности

Артем Игоревич Гурьянов

187-200

Аннотация:

В настоящее время в машинном обучении высокую актуальность имеют синтетические данные. Современные алгоритмы генерации синтетических данных дают возможность генерации данных, очень близких по статистическим свойствам к исходным данным. Синтетические данные используются на практике в широком спектре задач, в том числе связанных с аугментацией данных.

Предложен метод аугментации данных, совмещающий подходы увеличения объема выборки с помощью синтетических данных и генерации синтетических аномалий. Метод использован для решения задачи в сфере информационной безопасности, заключающейся в поиске аномалий в журналах сервера с целью обнаружения атак.

Модель, обученная в рамках решения названной задачи, показала высокие результаты. Это демонстрирует эффективность использования синтетических данных для увеличения объема выборки и генерации аномалий, а также возможность с высокой результативностью использовать эти подходы совместно.

Ключевые слова: синтетические данные, обнаружение аномалий, информационная безопасность, генерация аномалий, аугментация данных, машинное обучение.

Представление трёхмерных объектов для логических преобразований в реальном времени

Илья Евгеньевич Плотников, Даниил Иванович Костюк

484-505

Аннотация:

Дан сравнительный анализ методов представления трёхмерных объектов для выполнения булевых операций в реальном времени в среде игрового движка Unity. Рассмотрены четыре основных подхода: полигональное представление на основе конструктивной твердотельной геометрии (CSG), функции знакового расстояния (SDF), воксельные методы и CAD-системы с представлением границ (B-Rep) и NURBS-поверхностями.

Проведено экспериментальное исследование производительности полигональных алгоритмов булевых операций и SDF-функций на основе реализации ray marching. Выявлено, что полигональные методы характеризуются высокими начальными затратами на построение системы, но обеспечивают стабильную производительность при длительных операциях и сохранение результатов преобразований. SDF-функции демонстрируют высокую скорость выполнения операций и гибкость в создании сглаженных переходов между объектами, однако ограничены в применении для долговременных задач из-за особенностей вычислительной модели.

Определены области эффективного применения каждого подхода: полигональные методы рекомендуются для задач, требующих точного геометрического контроля и интеграции с традиционными графическими конвейерами, в то время как SDF-функции оптимальны для процедурной генерации, многослойного рендеринга материалов и создания динамических визуальных эффектов. Результаты исследования могут быть использованы при разработке интерактивных симуляторов, игровых приложений и систем виртуальной реальности.

Ключевые слова: булевы операции, трёхмерное моделирование, конструктивная твердотельная геометрия, функции знакового расстояния, SDF-функции, Unity, реальное время, полигональные сетки, ray marching.

Рейтинг журнала в библиографической базе

Михаил Михайлович Горбунов-Посадов, Татьяна Алексеевна Полилова

1060-1089

Аннотация:

Инструмент построения рейтингов научных журналов является одним из востребованных сервисов библиографических баз. Задача построения рейтинга обычно делится на две основные подзадачи: определение референтной группы журналов и вычисление показателя рейтинга для журналов этой группы. Практика показывает, что для корректного сопоставления журналов необходимым условием является ограничение референтной группы исключительно журналами определенной тематики. В случае методических ошибок, допущенных на этапе выделения референтной группы, значения показателя журналов в рейтинге могут сильно отличаться от ожидаемых.

Например, в рейтинге журналов в Российском индексе научного цитирования (РИНЦ) по двухлетнему импакт-фактору в тематическом направлении «Математика» классические фундаментальные математические журналы вопреки ожиданиям не выходят на первые позиции рейтинга. Первые позиции заняли журналы, для которых математика не является доминирующей профильной дисциплиной. Анализ статистических данных о тематике публикуемых статей и цитирований в журналах, занимающих лидирующие позиции рейтинга РИНЦ, показывает, что на показатели рейтинга существенно повлияла мультидисциплинарность этих журналов.

Отмеченное недоразумение подводит к мысли о том, что в подсчет рейтинга в данном случае следовало вовлекать не все статьи журнала, а только относящиеся к данному тематическому направлению. Вместе с тем вопросы вызывает и сложившаяся схема тематической классификации направлений. Более перспективной представляется набирающая популярность классификация «снизу вверх», работающая на представительном массиве статей. Здесь тематические кластеры вычленяются на основе понятия близости статей, трактуемого как близость их библиографических связей. И далее тематическая принадлежность статьи не назначается волевым решением автора или редакции, а строго формально вычисляется на основе ее библиографического списка.

Ключевые слова: научная публикация, цитирование, рейтинг журналов, тематическая классификация, импакт-фактор, мультидисциплинарность, библиографическая ссылка, со-цитирование, классификация снизу вверх, тематическая кластеризация, Citation Topics.

Региональный опыт реализации «мягкой» модели обучения геометрии с опорой на компьютерный эксперимент

Милена Альбертовна Мичасова

99-108

Аннотация:

Представлены некоторые результаты реализации «мягкой» модели обучения геометрии в школах Нижегородской области с опорой на идеи экспериментальной математики, в соответствии с которыми отбирается и разрабатывается содержание учебных материалов, способствующих развитию интеллекта учащихся (открытые задачи по геометрии). Отмечены преимущества перехода от статического взгляда на геометрическую задачу к динамическому, от традиционного изучения геометрии – к экспериментальному при использовании специальных развивающих учебных заданий: открытых исследовательских задач. Особенностью предлагаемых открытых задач по геометрии является то, что они, будучи проекцией традиционных классических задач по геометрии, в то же время, во-первых обеспечивают формирование основных компонентов ментального (когнитивного, понятийного, метакогнитивного, интенционального) опыта ученика и, во-вторых, создают условия для проявления индивидуальных познавательных стилей учащихся. Обогащение метакогнитивного опыта осуществляется с помощью цепочек открытых задач, которые создают условия для формирования умений планировать, прогнозировать и контролировать свою математическую деятельность.

Ключевые слова: экспериментальная математика, открытые задачи по геометрии, математическая деятельность, основная школа.

Детекция галлюцинаций на основе внутренних состояний больших языковых моделей

Тимур Рустемович Айсин, Татьяна Вячеславовна Шамардина

1282-1305

Аннотация:

В последние годы большие языковые модели (Large Language Models, LLM) достигли значительных успехов в области обработки естественного языка и стали ключевым инструментом для решения широкого спектра прикладных и исследовательских задач. Однако с ростом их масштабов и возможностей все более острой становится проблема галлюцинаций – генерации ложной, недостоверной или несуществующей информации, представленной в достоверной форме. В связи с этим вопросы анализа природы галлюцинаций и разработки методов их выявления приобретают особую научную и практическую значимость.

В работе изучен феномен галлюцинаций в больших языковых моделях, рассмотрены их существующая классификация и возможные причины. На базе модели Flan-T5 также исследованы различия внутренних состоянии модели при генерации галлюцинаций и верных ответов. На основе этих расхождений представлены два способа детектирования галлюцинаций: с помощью карт внимания и скрытых состояний модели. Эти методы протестированы на данных из бенчмарков HaluEval и Shroom 2024 в задачах суммаризации, ответов на вопросы, перефразирования, машинного перевода и генерации определений. Кроме того, исследована переносимость обученных детекторов между различными типами галлюцинаций, что позволило оценить универсальность предложенных методов для различных типов задач.

Ключевые слова: большие языковые модели, галлюцинации, детекция, Flan-T5, обработка естественного языка, карты внимания, внутренние состояния, HaluEval, Shroom.

Решение задачи классификации эмоционального тона сообщения с определением наиболее подходящей архитектуры нейронной сети

Данис Ильмасович Багаутдинов, Рихам Салман, Владислав Алексеевич Алексеев, Рустамджон Муроджонович Усмонов

396-413

Аннотация:

Для определения наиболее эффективного подхода к решению задачи классификации эмоционального тона сообщения проведено обучение выбранных моделей нейронной сети на различных наборах обучающих данных. На основе такого показателя, как процентное соотношение правильно данных ответов на тестовом наборе данных, сравнены комбинации наборов обучающих данных и различных моделей, обученных на основе этих данных. Произведено обучение четырех моделей нейронной сети на трех различных наборах обучающих данных. В результате сравнения точности ответов каждой модели, обученной на разных обучающих данных, сделаны выводы о выборе модели нейронной сети, наиболее подходящей для решения поставленной задачи.

Ключевые слова: NLP, sentiment detection, neural networks, comparison of neural network models, LSTM, CNN, BiLSTM.

Инструмент для оперативной диагностики памяти нейросетевых архитектур языковых моделей

Павел Андреевич Гавриков, Азамат Комилжон угли Усманов, Дмитрий Реваев, Сергей Николаевич Бузыканов

1346-1367

Аннотация:

Большие языковые модели (Large Language Models, LLM) прошли путь от простых N-граммных систем до современных универсальных архитектур, однако ключевым ограничением остается квадратичная сложность механизма самовнимания по длине входной последовательности. Это существенно увеличивает потребление памяти и вычислительных ресурсов, а с появлением задач, требующих рекордно длинных контекстов, создает необходимость разработки новых архитектурных решений. Поскольку для исследования предлагаемой архитектуры требуется длительное и дорогостоящее обучение полновесной сети, необходимо разработать инструмент, который позволял бы быстро дать предварительную оценку архитектуре с точки зрения внутренней памяти.

В настоящей работе предложен метод количественной оценки внутренней памяти нейросетевых архитектур на основе синтетических тестов, не требующих больших корпусов данных. Под внутренней памятью понимается объем информации, который модель способна воспроизвести без обращения к исходным входам.

Для верификации подхода разработан программный комплекс, апробированный на архитектурах GPT-2 и Mamba. Использованы задачи копирования, инверсии и извлечения значения по ключу. Проведенное сравнение по точности предсказаний, распределению ошибок и вычислительным затратам позволяет оперативно оценивать эффективность и перспективность архитектур LLM.

Ключевые слова: большие языковые модели, архитектура нейросетей, внутренняя память, долговременное хранение информации, обработка последовательностей, измерение функциональной памяти, сравнение архитектур.

Анализ распределения ключевых терминов в научных статьях

Светлана Александровна Власова, Николай Евгеньевич Каленов, Ирина Николаевна Соболевская

35-51

Аннотация:

Одними из основных компонентов Единого Цифрового Пространства Научных Знаний (ЕЦПНЗ) являются предметные онтологии отдельных тематических подпространств, включающие в себя основные понятия, относящиеся к данному научному направлению. Задача построения предметных онтологий на первом этапе требует формирования массива ключевых терминов в заданной области науки с последующим установлением связей между ними. Аналогичная задача стоит и при формировании энциклопедий в части определения перечня статей (слотов), определяющего их содержание. Одним из источников формирования массива ключевых терминов могут являться метаданные статей, опубликованных в ведущих научных журналах, а именно, авторские ключевые термины («ключевые слова» – в терминологии редакций журналов), сопровождающие в обязательном порядке эти статьи. Чтобы сделать заключение о возможности использования этого подхода к формированию предметных онтологий, необходимо провести предварительный анализ массива авторских ключевых терминов как с точки зрения реального соответствия основным направлениям исследований в данном разделе науки, так и с точки зрения распределения частоты встречаемости тех или иных терминов. В данной статье приведены результаты частотного анализа встречаемости авторских ключевых терминов на русском и английском языках, проведенного на основе программной обработки нескольких тысяч статей из ведущих российских журналов по математике, информатике и физике, отраженных в базе данных MathNet и на сайтах ряда издательств. Проведена оценка соответствия распределения ключевых терминов (как словосочетаний) и отдельных слов закону Брэдфорда, выявлены ядра ключевых терминов внутри тематических направлений.

Ключевые слова: цифровое пространство научных знаний, предметные онтологии, энциклопедические статьи, ключевые термины, метаданные статей, частотный анализ.

Обучение учащихся способам саморегуляции при решении математических задач

Мария Андреевна Кислякова

609-618

Аннотация: Актуальная проблема современной теории и методики обучения математике – обучение способам саморегуляции в процессе решения математических задач. Приведены рекомендации и примеры проведения осознанной саморегуляции учащихся при решении математических задач.

Ключевые слова: методы обучения, математические задания, методы саморегуляции.

Методика сравнения программных решений распознавания текстов научных публикаций по качеству извлечения метаданных

Илия Игоревич Кузнецов, Олег Пантелеевич Новиков, Дмитрий Юрьевич Ильин

654-680

Аннотация:

Метаданные научных публикаций используются для построения каталогов, определения цитируемости публикаций и решения других задач. Автоматизация извлечения метаданных из PDF-файлов позволяет ускорить выполнение обозначенных задач, а от качества извлеченных данных зависит возможность их дальнейшего использования. Проанализированы существующие программные решения, в итоге отобраны три: GROBID, CERMINE, ScientificPdfParser. Предложена методика сравнения этих программных решений распознавания текстов научных публикаций по качеству извлечения метаданных. На основе методики проведен эксперимент по извлечению четырех типов метаданных (название, аннотация, дата публикации, имена авторов). Для сравнения программных решений использован набор из 112457 публикаций с разбиением на 23 предметные области, сформированный на основе данных Semantic Scholar. Приведен пример выбора эффективного программного решения извлечения метаданных в условиях заданных приоритетов для предметных областей и типов метаданных с использованием взвешенной суммы. Определено, что для приведенного примера CERMINE показывает эффективность на 10,5% выше, чем GROBID, и на 9,6% выше, чем ScientificPdfParser.

Ключевые слова: распознавание текста, научные публикации, метаданные, качество извлечения данных, методика.

Метод поиска экспертов по данным наукометрических систем

Александр Сергеевич Козицын, Сергей Александрович Афонин

870-888

Аннотация:

Применение современных методов тематического анализа для аналитической обработки больших объемов информации используется в настоящие время практически во всех сферах человеческой деятельности, в том числе, в наукометрии. Многие наукометрические системы и системы цитирования, включая всемирно известные WoS, Scopus, Google Shcolar, разрабатывают тематические рубрикаторы для поиска и обработки информации. Важными практическими задачами, которые могут решаться с применением методов тематической классификации, являются: оценка динамики развития тематических направлений в организации, отдельной стране и мировой науке в целом; поиск статей по заданной тематике; поиск и оценка авторитетности экспертов; поиск журналов для публикации и другие актуальные задачи. Авторами созданы программные реализации алгоритмов для решения некоторых из перечисленных задач и ведутся научные исследования с целью создания новых эффективных математических моделей и алгоритмов в этой области.

Ключевые слова: тематический поиск, библиографические данные, поиск экспертов, информационные системы, наукометрия.

1 - 25 из 107 результатов 1 2 3 4 5 > >>