Intellectual Technologies on Transport

Интеллектуальные технологии на транспорте

2413-2527

93545

10.24412/2413-2527-2022-331-68-73

Статьи

Articles

Статьи

Features of Text Preprocessing for Performing Sentiment Analysis

Особенности предварительной обработки текстовых данных при анализе тональности текстов

Косых

Н Е

Kosykh

N E

nikitosagi@mail.ru

Молодкин

Игорь Андреевич

Molodkin

Igor Andreevich

molodkin@pgups.ru

Хомоненко

А Д

Khomonenko

A D

khomon@mail.ru

Петербургский государственный университет путей сообщения Императора Александра I ru Emperor Alexander I St. Petersburg State Transport University ru

Петербургский государственный университет путей сообщения Императора Александра I Санкт-Петербург Россия Emperor Alexander I St. Petersburg State Transport University St. Petersburg Russian Federation

Петербургский государственный университет путей сообщения Императора Александра I; Военно-космическая академия имени А. Ф. Можайского ru Emperor Alexander I St. Petersburg State Transport University; Mozhaisky Military Space Academy ru

11 01 2025

3 68 73 11 01 2025

https://atjournal.ru/en/nauka/article/93545/view

Объект исследования — анализ тональности русскоязычного корпуса текстов. Предмет исследования — сравнение эффективности подходов предварительной очистки текста перед анализом тональности. Цель исследования — разработка обобщенного метода предварительной очистки данных для создания модели нейросети. Отличительной чертой предложенных решений является использование современных и легковесных библиотек для возможности предварительной подготовке текста к обучению нейросетью; также апробирована гипотеза использования усеченного словаря на основе предположения об избыточности данных. Полученные результаты показывают полезность разработанного алгоритма с точки зрения получения улучшенных результатов в процессе обучения и указывают на то, что благодаря своей универсальности он может быть экстраполирован для дальнейшего использования на других текстовых данных.

The object of the research is the analysis of the sentiment of the Russian-language corpus of texts. The subject of the research is a comparison of the effectiveness of the approaches of preliminary text cleaning before sentiment analysis. The aim of the research is to develop a generalized method for preliminary data cleaning to create a neural network model. A distinctive feature of the proposed solutions is the use of modern and lightweight libraries for the possibility of preliminary preparation of a text for training with a neural network, and the hypothesis of using a truncated dictionary based on the assumption of data redundancy has been tested. The results obtained show the usefulness of the developed algorithm in terms of obtaining improved results in the learning process and indicate that, due to its versatility, it can be extrapolated for further use on other text data.

интеллектуальный анализ анализ данных сентиментный анализ нейронные сети обработка текста

mining data analysis sentiment analysis neural networks text processing