<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Intellectual Technologies on Transport</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Intellectual Technologies on Transport</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Интеллектуальные технологии на транспорте</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="online">2413-2527</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">93545</article-id>
   <article-id pub-id-type="doi">10.24412/2413-2527-2022-331-68-73</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>Статьи</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>Articles</subject>
    </subj-group>
    <subj-group>
     <subject>Статьи</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">Features of Text Preprocessing  for Performing Sentiment Analysis</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Особенности предварительной  обработки текстовых данных  при анализе тональности текстов</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Косых</surname>
       <given-names>Н Е</given-names>
      </name>
      <name xml:lang="en">
       <surname>Kosykh</surname>
       <given-names>N E</given-names>
      </name>
     </name-alternatives>
     <email>nikitosagi@mail.ru</email>
     <xref ref-type="aff" rid="aff-1"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Молодкин</surname>
       <given-names>Игорь Андреевич</given-names>
      </name>
      <name xml:lang="en">
       <surname>Molodkin</surname>
       <given-names>Igor Andreevich</given-names>
      </name>
     </name-alternatives>
     <email>molodkin@pgups.ru</email>
     <xref ref-type="aff" rid="aff-2"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Хомоненко</surname>
       <given-names>А Д</given-names>
      </name>
      <name xml:lang="en">
       <surname>Khomonenko</surname>
       <given-names>A D</given-names>
      </name>
     </name-alternatives>
     <email>khomon@mail.ru</email>
     <xref ref-type="aff" rid="aff-3"/>
    </contrib>
   </contrib-group>
   <aff-alternatives id="aff-1">
    <aff>
     <institution xml:lang="ru">Петербургский государственный университет путей сообщения Императора Александра I</institution>
     <country>ru</country>
    </aff>
    <aff>
     <institution xml:lang="en">Emperor Alexander I St. Petersburg State Transport University</institution>
     <country>ru</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-2">
    <aff>
     <institution xml:lang="ru">Петербургский государственный университет путей сообщения Императора Александра I</institution>
     <city>Санкт-Петербург</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">Emperor Alexander I St. Petersburg State Transport University</institution>
     <city>St. Petersburg</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-3">
    <aff>
     <institution xml:lang="ru">Петербургский государственный университет путей сообщения Императора Александра I; Военно-космическая академия имени А. Ф. Можайского</institution>
     <country>ru</country>
    </aff>
    <aff>
     <institution xml:lang="en">Emperor Alexander I St. Petersburg State Transport University; Mozhaisky Military Space Academy</institution>
     <country>ru</country>
    </aff>
   </aff-alternatives>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2025-01-11T23:33:05+03:00">
    <day>11</day>
    <month>01</month>
    <year>2025</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2025-01-11T23:33:05+03:00">
    <day>11</day>
    <month>01</month>
    <year>2025</year>
   </pub-date>
   <issue>3</issue>
   <fpage>68</fpage>
   <lpage>73</lpage>
   <history>
    <date date-type="received" iso-8601-date="2025-01-11T23:13:28+03:00">
     <day>11</day>
     <month>01</month>
     <year>2025</year>
    </date>
   </history>
   <self-uri xlink:href="https://atjournal.ru/en/nauka/article/93545/view">https://atjournal.ru/en/nauka/article/93545/view</self-uri>
   <abstract xml:lang="ru">
    <p>Объект исследования — анализ тональности русскоязычного корпуса текстов. Предмет исследования — сравнение эффективности подходов предварительной очистки текста перед анализом тональности. Цель исследования — разработка обобщенного метода предварительной очистки данных для создания модели нейросети. Отличительной чертой предложенных решений является использование современных и легковесных библиотек для возможности предварительной подготовке текста к обучению нейросетью; также апробирована гипотеза использования усеченного словаря на основе предположения об избыточности данных. Полученные результаты показывают полезность разработанного алгоритма с точки зрения получения улучшенных результатов в процессе обучения и указывают на то, что благодаря своей универсальности он может быть экстраполирован для дальнейшего использования на других текстовых данных.</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>The object of the research is the analysis of the sentiment of the Russian-language corpus of texts. The subject of the research is a comparison of the effectiveness of the approaches of preliminary text cleaning before sentiment analysis. The aim of the research is to develop a generalized method for preliminary data cleaning to create a neural network model. A distinctive feature of the proposed solutions is the use of modern and lightweight libraries for the possibility of preliminary preparation of a text for training with a neural network, and the hypothesis of using a truncated dictionary based on the assumption of data redundancy has been tested. The results obtained show the usefulness of the developed algorithm in terms of obtaining improved results in the learning process and indicate that, due to its versatility, it can be extrapolated for further use on other text data.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>интеллектуальный анализ</kwd>
    <kwd>анализ данных</kwd>
    <kwd>сентиментный анализ</kwd>
    <kwd>нейронные сети</kwd>
    <kwd>обработка текста</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>mining</kwd>
    <kwd>data analysis</kwd>
    <kwd>sentiment analysis</kwd>
    <kwd>neural networks</kwd>
    <kwd>text processing</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p></p>
 </body>
 <back>
  <ref-list/>
 </back>
</article>
