Аннотация:
Работа посвящена описанию метода детектирования искусственных и ненаучных текстов в коллекции научных статей. Предлагаемый метод основан на лексическом и морфологическом анализе проверяемого документа, позволяющем оценить вероятность его принадлежности к классу научных документов. Эксперименты подтверждают возможность практического применения метода.
Ключевые слова:
обработка естественного языка, классификация документов, анализ текстов, статистические языковые модели, детектирование искусственных текстов.