Development, study, and comparison of models of cross-immunity to the influenza virus using statistical methods and machine learning

Vopr Virusol. 2024 Sep 26;69(4):349-362. doi: 10.36233/0507-4088-250.

Abstract

Introduction: The World Health Organization considers the values of antibody titers in the hemagglutination inhibition assay as one of the most important criteria for assessing successful vaccination. Mathematical modeling of cross-immunity allows for identification on a real-time basis of new antigenic variants, which is of paramount importance for human health.

Materials and methods: This study uses statistical methods and machine learning techniques from simple to complex: logistic regression model, random forest method, and gradient boosting. The calculations used the AAindex matrices in parallel to the Hamming distance. The calculations were carried out with different types and values of antigenic escape thresholds, on four data sets. The results were compared using common binary classification metrics.

Results: Significant differentiation is shown depending on the data sets used. The best results were demonstrated by all three models for the forecast autumn season of 2022, which were preliminary trained on the February season of the same year (Auroc 0.934; 0.958; 0.956, respectively). The lowest results were obtained for the entire forecast year 2023, they were set up on data from two seasons of 2022 (Aucroc 0.614; 0.658; 0.775). The dependence of the results on the types of thresholds used and their values turned out to be insignificant. The additional use of AAindex matrices did not significantly improve the results of the models without introducing significant deterioration.

Conclusion: More complex models show better results. When developing cross-immunity models, testing on a variety of data sets is important to make strong claims about their prognostic robustness.

Введение. Всемирная организация здравоохранения в качестве одного из важнейших критериев оценки успешно проводимой вакцинации и способности предотвращать заболевание у населения рассматривает значения титров антител в реакции торможения гемагглютинации. Математическое моделирование перекрестного иммунитета позволяет оперативно выявлять новые антигенные варианты, что имеет первостепенное значение для эпидемиологического надзора и здоровья человека. Материалы и методы. В настоящей работе применены статистические методы и техники машинного обучения от простого к сложному ‒ регрессионная логистическая модель, метод случайного леса и градиентный бустинг. В расчетах, параллельно дистанции Хемминга, также использовали матрицы AАindex. Вычисления проводили с разными типами и величинами порогов антигенного ускользания, на четырех наборах данных (временны́х периодах). Результаты сравнивали по принятым метрикам бинарной классификации. Результаты. Показана существенная дифференциация в зависимости от применяемых наборов данных. Лучшие результаты продемонстрировали все три модели на прогнозный осенний сезон 2022 г., предварительно обученные на февральском сезоне этого же года (AUROC 0,934; 0,958; 0,956 соответственно). Наименьшие результаты были получены на весь прогнозный 2023 г., настроенные на данных двух сезонов 2022 г. (AUCROC 0,614; 0,658; 0,775 соответственно). При этом зависимость результатов от применяемых типов порогов и их величин оказалась незначительной. Дополнительное применение матриц ААindex не улучшило существенно результаты моделей, но в то же время не внесло значимых ухудшений. Заключение. Более сложные модели показывают лучший результат. При разработке моделей перекрестного иммунитета, для убедительного утверждения об их прогностической устойчивости важно проводить тестирование на разных наборах данных.

Keywords: AAindex databases; Hamming distance; antibody titers in HIA; antigenic distance; antigenic site; cross immunity; epidemiological model; gradient boosting; immune landscape; influenza A virus; logistic regression; random forest method; subtype H3N2; vaccine strain, machine learning methods.

Publication types

  • Comparative Study

MeSH terms

  • Antibodies, Viral / blood
  • Antibodies, Viral / immunology
  • Cross Reactions / immunology
  • Hemagglutination Inhibition Tests
  • Humans
  • Influenza Vaccines / immunology
  • Influenza, Human* / epidemiology
  • Influenza, Human* / immunology
  • Influenza, Human* / virology
  • Machine Learning*
  • Seasons
  • Vaccination

Substances

  • Influenza Vaccines
  • Antibodies, Viral