<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Intellectual Technologies on Transport</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Intellectual Technologies on Transport</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Интеллектуальные технологии на транспорте</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="online">2413-2527</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">99015</article-id>
   <article-id pub-id-type="doi">10.20295/2413-2527-2025-242-103-111</article-id>
   <article-id pub-id-type="edn">rdtehm</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ И ЗАЩИТА ДАННЫХ</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>INFORMATION SECURITY AND DATA PROTECTION</subject>
    </subj-group>
    <subj-group>
     <subject>ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ И ЗАЩИТА ДАННЫХ</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">Failure Management and Fault Tolerance Techniques in a Multi-Module Computing System Based on Creation and Replication of Checkpoints</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Методика парирования сбоев и отказов в многомодульной вычислительной системе на основе создания и репликации контрольных точек</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Кочуров</surname>
       <given-names>Денис Анатольевич</given-names>
      </name>
      <name xml:lang="en">
       <surname>Kochurov</surname>
       <given-names>Denis Anatol'evich</given-names>
      </name>
     </name-alternatives>
     <email>den-kochurov@bk.ru</email>
     <xref ref-type="aff" rid="aff-1"/>
    </contrib>
   </contrib-group>
   <aff-alternatives id="aff-1">
    <aff>
     <institution xml:lang="ru">Военно-космическая академия имени А. Ф. Можайского</institution>
     <city>Санкт-Петербург</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">Mozhaisky Military Aerospace Academy</institution>
     <city>Saint Petersburg</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2025-06-26T00:00:00+03:00">
    <day>26</day>
    <month>06</month>
    <year>2025</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2025-06-26T00:00:00+03:00">
    <day>26</day>
    <month>06</month>
    <year>2025</year>
   </pub-date>
   <issue>2</issue>
   <fpage>103</fpage>
   <lpage>111</lpage>
   <history>
    <date date-type="received" iso-8601-date="2025-05-20T00:00:00+03:00">
     <day>20</day>
     <month>05</month>
     <year>2025</year>
    </date>
    <date date-type="accepted" iso-8601-date="2025-05-21T00:00:00+03:00">
     <day>21</day>
     <month>05</month>
     <year>2025</year>
    </date>
   </history>
   <self-uri xlink:href="https://atjournal.ru/en/nauka/article/99015/view">https://atjournal.ru/en/nauka/article/99015/view</self-uri>
   <abstract xml:lang="ru">
    <p>Задача по повышению оперативности обработки целевой информации требует новых подходов к возможности быстрого восстановления вычислительной системы после сбоев и отказов. Цель: описать методику парирования сбоев и отказов в многомодульной вычислительной системе, которая реализует периодическое сохранение состояния вычислений (контрольных точек) и обмен ими между всеми вычислительными модулями. Результаты: сформулирована постановка задачи планирования такого вычислительного процесса, предполагающая определение оптимального количества и моментов времени создания контрольных точек. Обоснованы моменты времени создания контрольных точек в зависимости от закона распределения моментов времени отказов вычислительных модулей. Практическая значимость: представлены результаты имитационного моделирования вычислений в рамках предлагаемого подхода, доказывающие целесообразность применения предлагаемой методики.</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>Introduction: in order to enhance the efficiency of target information processing, it is necessary to adopt new approaches to the rapid detection and recovery from failures and faults to minimize the impact of such issues on the overall computing system. Purpose: to outline a technique for failure management and fault recovery in a multi-module computing system. This system implements periodic saving of calculations (checkpoints) and their exchange between all computing modules. Results: the problem of planning such a computing process has been outlined, including the determination of the optimal number and time points for creating checkpoints. The time points for creating checkpoints are determined based on the law of distribution of time points of computing module failures. Practical significance: the results of the simulation modelling calculations conducted as part of the proposed approach demonstrate the feasibility of implementing the proposed technique.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>многомодульная вычислительная система</kwd>
    <kwd>модель вычислительного процесса</kwd>
    <kwd>контрольная точка</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>multi-module computing system</kwd>
    <kwd>model of the computing process</kwd>
    <kwd>checkpoint</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p></p>
 </body>
 <back>
  <ref-list>
   <ref id="B1">
    <label>1.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Бондаренко А. А., Якобовский М. В. Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек // Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика». 2014. Т. 3, № 3. С. 20–36.</mixed-citation>
     <mixed-citation xml:lang="en">Bondarenko A. A., Iakobovski M. V. Obespechenie otkazoustoychivosti vysokoproizvoditelnykh vychisleniy s pomoshchyu lokalnykh kontrolnykh tochek [Fault Tolerance for HPC by Using Local Checkpoints], Vestnik Yuzhno-Uralskogo gosudarstvennogo universiteta. Seriya “Vychislitelnaya matematika i informatika” [Bulletin of the South Ural State University. Series “Computational Mathematics and Software Engineering”], 2014, Vol. 3, No. 3, Pp. 20–36. (In Russian)</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B2">
    <label>2.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Поляков А. Ю., Данекина А. А. Оптимизация времени создания и объема контрольных точек восстановления параллельных программ // Вестник СибГУТИ. 2010. № 2 (10). С. 87–100.</mixed-citation>
     <mixed-citation xml:lang="en">Polyakov A. Yu., Danekina A. A. Optimizatsiya vremeni sozdaniya i obema kontrolnykh tochek vosstanovleniya parallelnykh programm [Optimization of Size and Creation Time of Parallel Programs Checkpoints], Vestnik SibGUTI [The Herald of the Siberian State University of Telecommunications and Information Science], 2010, No. 2, Pp. 87–100. (In Russian)</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B3">
    <label>3.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">A Survey of Rollback-Recovery Protocols in Message-Passing Systems / E. N. Elnozahy, L. Alvisi, Y.-M. Wang, D. B. Johnson // ACM Computing Surveys. 2002. Vol. 34, Iss. 3. Pp. 375–408. DOI: 10.1145/568522.568525.</mixed-citation>
     <mixed-citation xml:lang="en">Elnozahy E. N., Alvisi L., Wang Y.-M., Johnson D. B. A Survey of Rollback-Recovery Protocols in Message-Passing Systems, ACM Computing Surveys, 2002, Vol. 34, Iss. 3, Pp. 375–408. DOI: 10.1145/568522.568525.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B4">
    <label>4.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Метод отказоустойчивой параллельной обработки информации в бортовых вычислительных системах летательных аппаратов на основе временной избыточности вычислительного процесса / А. Г. Басыров, С. С. Зыкова, И. Н. Кошель, В. В. Кузнецов // Авиакосмическое приборостроение. 2023. № 6. С. 33–39. DOI: 10.25791/aviakosmos.6.2023.1345.</mixed-citation>
     <mixed-citation xml:lang="en">Basyrov A. G., Zykova S. S., Koshel I. N., Kuznecov V. V. Metod otkazoustoychivoy parallelnoy obrabotki informatsii v bortovykh vychislitelnykh sistemakh letatelnykh apparatov na osnove vremennoy izbytochnosti vychislitelnogo protsessa [A Method of Fault-Tolerant Parallel Processing of Information in On-Board Computing Systems of Aircraft Based on the Temporary Redundancy of the Computing Process], Aviakosmicheskoe priborostroenie [Aerospace Instrument-Making], 2023, No. 6, Pp. 33–39. DOI: 10.25791/aviakosmos.6.2023.1345. (In Russian)</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B5">
    <label>5.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Зыкова С. С. Модель и алгоритм планирования параллельной обработки информации в отказоустойчивой бортовой вычислительной системе на основе временной избыточности вычислительного процесса // Интеллектуальные технологии на транспорте. 2023. № 4 (36). С. 28–33. DOI: 10.24412/2413-2527-2023-436-28-33.</mixed-citation>
     <mixed-citation xml:lang="en">Zykova S. S. Model i algoritm planirovaniya parallelnoy obrabotki informatsii v otkazoustoychivoy bortovoy vychislitelnoy sisteme na osnove vremennoy izbytochnosti vychislitelnogo protsessa [A Model and Algorithm for Planning Parallel Information Processing in a Fault-Tolerant On-Board Computing System Based on the Time Redundancy of the Computing Process], Intellektualnye tekhnologii na transporte [Intellectual Technologies on Transport], 2023, No. 4 (36), Pp. 28–33. DOI: 10.24412/2413-2527-2023-436-28-33. (In Russian)</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B6">
    <label>6.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">ГОСТ Р ИСО/МЭК 25010—2015. Информационные технологии. Системная и программная инженерия. Требования и оценка качества систем и программного обеспечения (SQuaRE). Модели качества систем и программных продуктов = Information technology. Systems and software engineering. Systems and software Quality Requirements and Evaluation (SQuaRE). System and software quality models: национальный стандарт Российской Федерации: утвержден и введен в действие приказом Федерального агентства по техническому регулированию и метрологии от 29 мая 2015 года № 464-ст: дата введения 2016-06-01. М.: Стандартинформ, 2015. 36 с.</mixed-citation>
     <mixed-citation xml:lang="en">GOST R ISO/MEK 25010—2015. Informatsionnye tekhnologii. Sistemnaya i programmnaya inzheneriya. Trebovaniya i otsenka kachestva sistem i programmnogo obespecheniya (SQuaRE). Modeli kachestva sistem i programmnykh produktov [GOST R ISO/MEK 25010—2015. Information technology. Systems and software engineering. Systems and software Quality Requirements and Evaluation (SQuaRE). System and software quality models]. Effective from June 01, 2016. Moscow, StandartInform Publishing House, 2015, 36 p. (In Russian)</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B7">
    <label>7.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Rathore N. Checkpointing: Fault Tolerance Mechanism // i-manager’s Journal on Cloud Computing. 2017. Vol. 4, No. 1. Pp. 28–35. DOI: 10.26634/jcc.4.1.13756.</mixed-citation>
     <mixed-citation xml:lang="en">Rathore N. Checkpointing: Fault Tolerance Mechanism, i-manager’s Journal on Cloud Computing, 2017, Vol. 4, No. 1, Pp. 28–35. DOI: 10.26634/jcc.4.1.13756.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B8">
    <label>8.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Koren I., Mani Krishna C. Fault-Tolerant Systems. Second Edition. Cambridge (MA): Morgan Kaufmann Publishers, 2020. 416 p.</mixed-citation>
     <mixed-citation xml:lang="en">Koren I., Mani Krishna C. Fault-Tolerant Systems. Second Edition. Cambridge (MA), Morgan Kaufmann Publishers, 2020, 416 p.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B9">
    <label>9.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Elnozahy E. N., Plank J. S. Checkpointing for Peta-Scale Systems: A Look into the Future of Practical Rollback-Recovery // IEEE Transactions on Dependable and Secure Computing. 2004. Vol. 1, Iss. 2. Pp. 97–108. DOI: 10.1109/TDSC.2004.15.</mixed-citation>
     <mixed-citation xml:lang="en">Elnozahy E. N., Plank J. S. Checkpointing for Peta-Scale Systems: A Look into the Future of Practical Rollback-Recovery, IEEE Transactions on Dependable and Secure Computing, 2004, Vol. 1, Iss. 2, Pp. 97–108. DOI: 10.1109/TDSC.2004.15.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B10">
    <label>10.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Optimal Checkpointing Period: Time vs. Energy / G. Aupy, A. Benoit, T. Hérault [et al.] // High Performance Computing Systems. Performance Modeling, Benchmarking and Simulation (PMBS 2013): Revised Selected Papers of the 4th International Workshop (Denver, CO, USA, 18 November 2013). Lecture Notes in Computer Science. Vol. 8551. Cham: Springer International Publishing, 2013. Pp. 203–214. DOI: 10.1007/978-3-319-10214-6_10.</mixed-citation>
     <mixed-citation xml:lang="en">Aupy G., Benoit A., Hérault T., et al. Optimal Checkpointing Period: Time vs. Energy, High Performance Computing Systems. Performance Modeling, Benchmarking and Simulation (PMBS 2013): Revised Selected Papers of the 4th International Workshop, Denver, CO, USA, November 18, 2013. Lecture Notes in Computer Science, Vol. 8551. Cham, Springer International Publishing, 2013, Pp. 203–214. DOI: 10.1007/978-3-319-10214-6_10.</mixed-citation>
    </citation-alternatives>
   </ref>
  </ref-list>
 </back>
</article>
