Intellectual Technologies on Transport

Интеллектуальные технологии на транспорте

2413-2527

93532

Статьи

Articles

Статьи

The Russian Language Text Corpus for Testing Algorithms of Topic Model

Корпус текстов русского языка для тестирования алгоритмов тематического моделирования

Карпович

С Н

Karpovich

S N

cims@yandex.ru

АО «Олимп» ru JSC “Olimp” ru

11 01 2025

1 11 19 11 01 2025

https://atjournal.ru/en/nauka/article/93532/view

Предложен специальный корпус текстов SCTMru для тестирования алгоритмов тематического моделирования. В условиях стремительного роста количества информационных данных остро проявляется проблема разработки инструментов и систем для их автоматической обработки. Для создания систем и тестирования алгоритмов должны существовать подходящие наборы данных. Необходимо наличие свободных коллекций документов, текстовых корпусов на русском языке для исследований методов автоматической обработки текстов на естественном языке с учетом лингвистических особенностей языка. Обозначены требования к специальному корпусу: он должен распространяться по свободной лицензии, количество документов должно быть достаточным для исследования, должен содержать тексты документов на естественном языке, а также востребованную в алгоритмах тематического моделирования информацию. Проведен сравнительный анализ корпусов на русском и иностранных языках, выявлено несоответствие характеристик существующих корпусов обозначенным требованиям.

This paper proposes a special corpus for testing algorithms Topic model SCTM-ru. In the conditions of the prompt growth of quantity of data, the problem of development of tools and systems for their automatic processing. To create systems and testing algorithms should be suitable datasets. Existence of free collections of documents, text corpora in Russian, is necessary for researches methods of natural language processing, considering linguistic features of language. Designated special housing requirements: must be distributed under a free license, the number of documents should be sufficient for the study, must include the text of documents in natural language should contain demanded algorithms Topic model information. The comparative analysis of corpus in Russian and foreign languages is carried out, discrepancy of characteristics of the existing corpus with the designated requirements is revealed.

текстовый корпус тематическая модель обработка естественного языка русский язык

text corpora topic model natural language processing Russian language