Найти

Поиск статей

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Результаты поиска

Вопросы интеграции управления идентификацией пользователей сетевых, вычислительных и информационных сервисов

А.В. Созыкин, Г.Ф. Масич, А.Г. Масич, А.Н. Бездушный

Аннотация: В статье рассматривается подход к управлению идентификацией пользователей корпоративной сети учреждений РАН. Управление идентификацией представляет собой процесс, охватывающий весь жизненный цикл учетных записей пользователей и контроль над правами доступа в распределенных средах. Рассматриваемый подох позволяет интегрировать управление идентификацией пользователей сетевых, вычислительных и информационных сервисов. Архитектура предлагаемого решения основывается на открытых стандартах, использовании многоуровневой компонентной архитектуры LDAP-систем (OpenLDAP, iPlanet Directory) и доступа к ним как через локальные, так и через глобальные сети. Эти работы поддержаны грантами РФФИ 03-07-90140в, 04-07-96003, 02-07-90305ск.
В качестве основного вида хранилищ конфигурационной информации сетевых сервисов сейчас обычно рассматриваются LDAP каталоги. Во множестве конфигурационной информации сетевых сервисов выделяются данные, представляющие интерес для информационно-справочных сервисов – так называемые «метаданные сетевых сервисов».
Поскольку LDAP каталоги часто используются в качестве корпоративных справочников общего назначения, чтобы осуществить принципы «единой точки доступа», «согласованной модификации данных» как информационной, так и сетевой и вычислительной инфраструктур научного учреждения, проводится сравнение схем метаданных информационно-справочных системы ИСИР и стандартных схем LDAP каталогов.
Кроме того, уделяется внимание и такому варианту использования LDAP каталогов как репозитория хранимых объектов информационно-справочных сервисов. Предлагается способы отображения RDFS схемы данных в LDAP схемы.

Нейросимволический подход к дополненной генерации текста на основе автоматизированной индукции морфотактических правил

Марат Вильданович Исангулов, Александр Михайлович Елизаров, Айгиз Ражапович Кунафин, Айрат Рафизович Гатиатуллин, Николай Аркадиевич Прокопьев

1085-1102

Аннотация:

Представлен гибридный нейросимволический метод, который объединяет большую языковую модель (LLM) и конечный автомат (FST) для обеспечения морфологической корректности при генерации текста на агглютинативных языках.
Система автоматически извлекает правила из корпусных данных: для локальных примеров словоформ LLM формирует цепочки морфологического разбора, которые затем агрегируются и упорядочиваются в компактные описания правил морфотактики (LEXC) и выбора алломорфов (regex). На этапе генерации LLM и FST работают совместно: если токен не распознается автоматом, LLM извлекает из контекста пару «лемма + теги», а FST реализует корректную поверхностную форму. В качестве набора данных использован корпус художественной литературы (~1600 предложений). Для списка из 50 существительных извлечено 250 словоформ. По предложенному алгоритму LLM сгенерировала 110 контекстных regex-правил вместе с LEXC-морфотактикой, на основе чего был скомпилирован FST, распознавший 170/250 форм (~70%). В прикладном тесте машинного перевода на подкорпусе из 300 предложений интеграция данного FST в цикл LLM повысила качество с BLEU 16.14 / ChrF 45.13 до BLEU 25.71 / ChrF 50.87 без дообучения переводчика. Подход применим к иным частям речи и другим агглютинативным и малоресурсным языкам, где он может быть использован для наполнения словарных и грамматических ресурсов.

Ключевые слова: нейросимволический подход, большая языковая модель, конечные автоматы, двухуровневая морфология, LEXC морфотактика, машинный перевод, агглютинативные языки, башкирский язык.

Цифровой двойник парковочного пространства

Рифкат Нургалиевич Минниханов, Тимур Русланович Баторшин, Руслан Марселевич Габбазов, Рузель Ильдарович Фахразиев, Алексей Сергеевич Катасёв, Мария Витальевна Дагаева, Инзиль Ринатович Бадрутдинов

884-902

Аннотация:

Рост уровня урбанизации и автомобилизации приводит к дефициту парковочных мест, что вызывает заторы, повышение выбросов и снижение качества жизни. Традиционные методы организации парковочного пространства не обеспечивают эффективного решения этой проблемы, что требует применения инструментов анализа данных и прогнозирования.

В работе рассмотрено использование цифрового двойника парковочной системы города Казани. Проведены фильтрация и интеграция данных, выполнены кластеризация точек интереса и корреляционный анализ факторов, влияющих на заполняемость парковок. Для прогнозирования уровня загруженности обучены и сравнены модели линейной регрессии, дерева решений, случайного леса, XGBoost, MLP и LSTM. Наилучшие результаты продемонстрировала модель случайного леса. Разработанный прототип цифрового двойника обеспечивает мониторинг и сценарное моделирование, что делает его эффективным инструментом для оптимизации парковочного пространства и принятия управленческих решений.

Ключевые слова: цифровой двойник, парковки, заполняемость парковочных мест, машинное обучение, точки интереса, оптимизация.

Разработка модуля проверки данных для удовлетворения метрики устаревания

Айгуль Ильдаровна Сибгатуллина, Азат Шавкатович Якупов

159-178

Аннотация:

Из года в год возрастает объем мирового рынка больших данных. Их анализ является неотъемлемой частью для принятия немедленных и надежных решений. Технологии больших данных ведут к значительному снижению стоимости за счет использования облачных сервисов, распределенных файловых систем, когда возникает потребность в хранении больших объемов информации. Их аналитика неразрывно связана с понятием качества данных, что особенно важно, если они имеют определенный срок хранения – метрику устаревания – и мигрируют из одного источника в другой, увеличивая риск потери данных. Предупреждение негативных последствий достигается за счет процесса сверки данных – комплексной проверки больших объемов информации с целью подтверждения их согласованности.

В статье рассмотрены вероятностные структуры данных, которые могут быть использованы для решения задачи, а также предложена реализация – модуль проверки целостности данных с использованием фильтра Блума с подсчетом. Данный модуль интегрирован в Apache Airflow для автоматизации процесса.

Ключевые слова: большие данные, метрика устаревания, партиция, parquet файл, фильтр Блума.

Архитектура и технологии RDFS-среды разработки цифровых библиотек и Web-порталов

А.А. Бездушный, А.К. Нестеренко, Т.М. Сысоев, А.Н. Бездушный, В.А. Серебряков

Аннотация: В работе рассматривается общая архитектура новой версии системы ИСИР, опирающейся на открытые стандарты W3C: Semantic Web [SW], XML[XML] технологии, и на применение opensource решений. Архитектура позволяет разрабатывать распределённые объектно-ориентированные информационные системы - цифровые библиотеки, информационные и корпоративные порталы, сайты на базе различных типов хранилищ информации, таких как объектные и реляционные базы данных, LDAP-каталоги. Система параметризуется описанием объектной схемы данных конкретной предметной области и легко адаптируется к её изменениям. Для описания схемы используется W3C стандарт на описание схем Интернет ресурсов - RDFS. Архитектура имеет многоуровневую модульную организацию, каждый уровень имеет собственные цели и абстракции. Фундамент решения - ядро ИСИР - унифицирует механизмы работы с хранимыми объектными данными, предоставляет ряд услуг по управлению этими данными, например, разграничение прав доступа, журнализация изменений. На базе ядра строятся более высокоуровневые сервисы такие, как RDF/XML-обмен данными, репликация информации между репозиториями, атрибутно - полнотекстовая индексация данных и др. Имеются средства для простой и эффективной разработки пользовательских Web-интерфейсов. Средства публикации информации и построения отчётов применяют механизмы XSLT и поддерживают широкий спектр целевых форматов. Служба управления потоками работ по редактированию ресурсов репозиториев следует стандартам WfMC - канонической модели и языку спецификации потоков работ XPDL. Служба управления содержанием Web-сайта обеспечивает мульти - иерархическую каталогизацию слабоструктурированной информации, отличающейся нерегулярностью взаимосвязи ее элементов.

1 - 5 из 5 результатов