Настоящий выпуск журнала «Электронные библиотеки» представляет собой тематический сборник статей, посвященный проблеме автоматического анализа тональности текстов на русском языке.
Задача анализ тональности состоит в автоматическом определении отношения автора текста (позитивном, негативном или нейтральном) к объектам и ситуациям, о которых говорится в анализируемом тексте. В настоящее время автоматический анализ тональности используется в самых различных приложениях, ключая мониторинг репутации компаний и публичных персон, анализ общественных настроений в том или ином регионе, анализ сообществ в социальных сетях и многое другое.
В данном тематическом выпуске представлены статьи участников открытого тестирования систем анализа тональности на русском языке SentiRuEval, провeденном в 2014–2015 годах. В данном тестировании участникам были предложены для решения две основные задачи.
Первая задача состояла в автоматическом анализе отзывов пользователей в двух предметных областях (рестораны и автомобили) с целью определить основные характеристики обсуждаемых объектов (так называемые аспекты, например, салат, интерьер для ресторанов) и их оценку пользователем – автором отзыва.
Вторая задача заключалась в анализе постов Твиттера (твитов) для мониторинга репутации организаций в заданной сфере деятельности (банки и телекоммуникационные компании). Данная задача включает как выявление положительного или отрицательного отношения авторов твитов к заданным организациям,
так и оценку распространяемых в Твиттере позитивных или негативных новостей об этих организациях.
В статье Н.В. Лукашевич (НИВЦ МГУ им. М.В. Ломоносова) «Автоматический анализ текстов по отношению к заданному объекту и его характеристикам» представлен обзор задач, возникающих в рамках анализа тональности текстов по аспектам. Представлены особенности предлагаемых подходов и достигаемые ими характеристики качества.
Статья П.Д. Блинова и Е.В. Котельникова (Вятский государственный гуманитарный университет) «Семантическое сходство в задаче аспектно-эмоционального анализа» описывает совокупность подходов к анализу тональности текстов по аспектам, начиная с извлечения аспектов, их дальнейшей классификации и определению тональности. Подход к извлечению аспектов сущности основан на выявлении контекстов употребления слов, представления их в виде векторов и дальнейшем группировании этих слов в аспектные категории.
В статье группы авторов из Казанского федерального университета (Е.В. Тутубалина, В.В. Иванов, М.А. Загулова, Н.Р. Мингазов, И.С. Алимова, В.А. Малых) представлены подходы на основе методов машинного обучения к обеим задачам SentiRuEval: анализ отзывов и анализ твитов. Подробно описаны признаки, используемые в применяемых методах машинного обучения, их модификации в конкретных задачах, а также проведен анализ ошибок.
В статье Ю.В. Адаскиной, П.В. Паничевой и А.М. Попова (ООО «InfoQubes»,
Санкт-Петербургский государственный университет) исследуется вклад синтаксического анализа в задаче анализа тональности твитов. Для этого проводится синтаксический анализ твитов, получившаяся синтаксическая структура преобразуется в тройки вида (отношение, слово1, слово2), и затем эти тройки используются
как дополнительные признаки для системы классификации.
Статья П.Ю. Полякова, М.В. Калининой, В.В. Плешко (ООО «ЭР СИ О») посвящена рассмотрению лингвистико-инженерного подхода к анализу тональности твитов, включающего использование словаря оценочных слов, синтаксического анализатора, а также правил вычисления тональности на основе проведенного анализа.
В статье Ю.В. Рубцовой и С.А. Кошельникова (Институт систем информатики им. А.П. Ершова СО РАН) рассматриваются особенности применения известного метода машинного обучения CRF для анализа тональности твитов, анализируются ошибки полученного классификатора.
Нужно отметить, что мировая практика научных исследований в области автоматической обработки текстов свидетельствует о важности открытых тестирований типа SentiRuEval, в результате которых выявляются и получают большее распространение лучшие подходы, в целом ускоряется развитие автоматических систем. Поэтому практика проведения открытых тестирований становится все более распространенной в мире, в России также будут продолжаться такого рода тестирования автоматического анализа текстов на русском языке.

Н.В. Лукашевич

Published: 18.04.2015

From the originator

Наталья Валентиновна Лукашевич
86-87
Abstract: -

Automatic sentiment analysis towards the entity and its characteristics

Наталья Валентиновна Лукашевич
88-119
Abstract: The paper considers approaches to sentiment analysis towards a specific entity and its characteristics (aspects). To solve the aspect-oriented sentiment analysis task, it is necessary to extract aspect terms from texts, to classify or cluster aspect terms into aspect categories, to determine the sentiment expressed towards the specfic aspect. The paper also briefly presents SentiRuEval-2015 evaluation of aspect-oriented sentiment analysis systems in Russian.

Semantic similarity for aspect-based sentiment analysis

Евгений Вячеславович Котельников, Павел Дмитриевич Блинов
120-137
Abstract:

The article investigates the problem of aspect-based sentiment analysis. Such version of analysis is more challenging compared to general task of sentiment detection problem. It implies the solutions to the number of related subtasks such as aspect term extraction, aspect term polarity detection and aspect category polarity detection. The solution of aspect-based sentiment analysis problem significantly extends the capabilities of natural language processing systems.

The article gives the overview of previous works in the field and describes the train and test data from the Russian evaluation workshop SentiRuEval. For the task of aspect term extraction the vector space of distributed representations of words was used. Aspect term detection is based on mutual information method and semantic similarity. The paper contains the number of experimental results. At the end the final conclusions are drawn.

Sentiment classification of reviews and twitter posts based on dictionaries

Елена Викторовна Тутубалина, Владимир Владимирович Иванов, Мария Загулова, Никита Мингазов, Ильсеяр Алимова, Валентин Малых
138-162
Abstract:

Sentiment analysis and opinion mining technologies are growing fast. This is mostly due to a rapid grow of the data sources consisting a vast amount of user opinions and reviews on a wide set of topics. In this paper we describe methods for sentiment analysis of reviews and short messages (tweets), as well as evaluation of results obtained during SentiRuEval-2015.

Using syntax for sentiment analysis of russian tweets

Юлия Владимировна Адаскина, Полина Вадимовна Паничева, Андрей Михайлович Попов
163-184
Abstract:

The paper describes our approach to the task of sentiment analysis of tweets within SentiRuEval – an open evaluation of sentiment analysis systems for the Russian language. We took part in the task of sentiment analysis of Russian tweets concerning two types of organizations: banks and telecommunications companies. On both datasets, the participants were required to perform a three-way classification of tweets: positive, negative or neutral.

We used various statistical methods as basis for our machine learning algorithms. Linguistic features produced by our morpho-syntactic analyzer are applied to the classification. Syntactic relations proved to be a crucial feature for any statistical method evaluated, and SVM-based classification performed better than the others. Normalized words are another important feature for the algorithm.

The evaluation revealed that our method proved to be rather successful: we scored the first in three out of four evaluation measures.

Experiment in building an automatic object-oriented sentiment detection system based on the syntactic and semantic analyzer

Павел Юрьевич Поляков, Мария Викторовна Калинина, Владимир Владимирович Плешко
185-202
Abstract:

This paper focuses on the use of a linguistics-based method for automatic object-oriented sentiment analyses. The study was conducted as part of SentiRuEval automatic sentiment analysis system testing cycle. The original task was to extract users’ opinions (positive, negative, neutral) about telecom companies, expressed in tweets and news. In this study news was excluded from the dataset because, being formal texts, news significantly differs from informal ones in its structure and vocabulary and therefore demands a different approach. Only linguistic approach based on syntactic and semantic analysis was used. In this approach, a sentiment-bearing word or expression is linked to its target object at either of two stages, which perform successively. The first stage includes usage of semantic templates matching the dependence tree, and the second stage involves heuristics for linking sentiment expressions and their target objects when syntactic relations between them do not exist. No machine learning was used. The method showed a very high quality, which roughly coincides with the best results of machine learning methods and hybrid approaches.

Extraction of aspects of goods and services from consumers reviews using conditional random fields model

Юлия Владимировна Рубцова, Сергей Андреевич Кошельников
203-221
Abstract:

This paper describes the Information extraction system that was presented at SentiRuEval-2015: aspect-based sentiment analysis of users' reviews in Russian. The proposed system uses a conditional random field algorithm to extract aspect terms mentioned in the text. A set of morphological features was used for machine learning. The system intent to perform two subtasks, Task A – automatic extraction of explicit aspects and Task B – automatic extraction of all aspects (explicit, implicit and sentiment facts), and tested on two domains: restaurants and automobiles. Our systems performed competitively and showed the results comparable to those of the other 10 participants.