<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Intellectual Technologies on Transport</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Intellectual Technologies on Transport</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Интеллектуальные технологии на транспорте</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="online">2413-2527</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">93532</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>Статьи</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>Articles</subject>
    </subj-group>
    <subj-group>
     <subject>Статьи</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">The Russian Language Text Corpus for Testing Algorithms of Topic Model</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Корпус текстов русского языка для тестирования алгоритмов тематического моделирования</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Карпович</surname>
       <given-names>С Н</given-names>
      </name>
      <name xml:lang="en">
       <surname>Karpovich</surname>
       <given-names>S N</given-names>
      </name>
     </name-alternatives>
     <email>cims@yandex.ru</email>
     <xref ref-type="aff" rid="aff-1"/>
    </contrib>
   </contrib-group>
   <aff-alternatives id="aff-1">
    <aff>
     <institution xml:lang="ru">АО «Олимп»</institution>
     <country>ru</country>
    </aff>
    <aff>
     <institution xml:lang="en">JSC “Olimp”</institution>
     <country>ru</country>
    </aff>
   </aff-alternatives>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2025-01-11T23:29:05+03:00">
    <day>11</day>
    <month>01</month>
    <year>2025</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2025-01-11T23:29:05+03:00">
    <day>11</day>
    <month>01</month>
    <year>2025</year>
   </pub-date>
   <issue>1</issue>
   <fpage>11</fpage>
   <lpage>19</lpage>
   <history>
    <date date-type="received" iso-8601-date="2025-01-11T23:12:46+03:00">
     <day>11</day>
     <month>01</month>
     <year>2025</year>
    </date>
   </history>
   <self-uri xlink:href="https://atjournal.ru/en/nauka/article/93532/view">https://atjournal.ru/en/nauka/article/93532/view</self-uri>
   <abstract xml:lang="ru">
    <p>Предложен специальный корпус текстов SCTMru для тестирования алгоритмов тематического моделирования. В условиях стремительного роста количества информационных данных остро проявляется проблема разработки инструментов и систем для их автоматической обработки. Для создания систем и тестирования алгоритмов должны существовать подходящие наборы данных. Необходимо наличие свободных коллекций документов, текстовых корпусов на русском языке для исследований методов автоматической обработки текстов на естественном языке с учетом лингвистических особенностей языка. Обозначены требования к специальному корпусу: он должен распространяться по свободной лицензии, количество документов должно быть достаточным для исследования, должен содержать тексты документов на естественном языке, а также востребованную в алгоритмах тематического моделирования информацию. Проведен сравнительный анализ корпусов на русском и иностранных языках, выявлено несоответствие характеристик существующих корпусов обозначенным требованиям.</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>This paper proposes a special corpus for testing algorithms Topic model SCTM-ru. In the conditions of the prompt growth of quantity of data, the problem of development of tools and systems for their automatic processing. To create systems and testing algorithms should be suitable datasets. Existence of free collections of documents, text corpora in Russian, is necessary for researches methods of natural language processing, considering linguistic features of language. Designated special housing requirements: must be distributed under a free license, the number of documents should be sufficient for the study, must include the text of documents in natural language should contain demanded algorithms Topic model information. The comparative analysis of corpus in Russian and foreign languages is carried out, discrepancy of characteristics of the existing corpus with the designated requirements is revealed.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>текстовый корпус</kwd>
    <kwd>тематическая модель</kwd>
    <kwd>обработка естественного языка</kwd>
    <kwd>русский язык</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>text corpora</kwd>
    <kwd>topic model</kwd>
    <kwd>natural language processing</kwd>
    <kwd>Russian language</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p></p>
 </body>
 <back>
  <ref-list/>
 </back>
</article>
