Научная визуализация

Scientific Visualization

Электронный журнал открытого доступа

Национальный Исследовательский Ядерный Университет "МИФИ"

      ISSN 2079-3537      

 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                                                                                             





Научная визуализация, 2024, том 16, номер 2, страницы 67 - 80, DOI: 10.26583/sv.16.2.06

Визуализация и классификация движений человека на основе скелетной структуры: Нейросетевой подход к анализу спортивных упражнений и сравнение методологий

Авторы: В.О. Кузеванов1, Д. В. Тихомирова2

Национальный исследовательский ядерный университет "МИФИ", Москва, Россия

1 ORCID: 0009-0004-5415-1477, vl.kuzevanov@gmail.com

2 ORCID: 0000-0002-0812-2331, dvsulim@mail.ru

 

Аннотация

Авторы статьи рассматривают и сравнивают различные существующие подходы к HAR, анализируют преимущества и недостатки платформ извлечения скелетной структуры человека из видеопотока, а также оценивают значение визуального представления в процессе анализа движений. В данной статье представлен пример реализации одного из подходов к распознаванию движений человека (Human Action Recognition – HAR), основанный на использовании интерпретируемости и визуальной выразительности, присущих скелетным структурам. В работе разработана и реализована специальная сеть с долговременной памятью (Long Short-Term Memory – LSTM), предназначенная для классификации человеческой деятельности, которая была обучена и протестирована в домене спортивных упражнений. Включение в состав LSTM ячеек памяти и механизмов управления не только снимает проблему затухающего градиента, но и позволяет слою LSTM избирательно сохранять и использовать релевантную информацию в длинных последовательностях, что делает их весьма эффективными в задачах со сложными временными зависимостями. Проблема с затухающим градиентом достаточна распространена в глубоких нейронных сетях и заключается в том, что при обратном распространении ошибки во время обучения сети градиент может сильно уменьшаться по мере прохождения через слои сети к начальным слоям. Это может привести к тому, что веса в начальных слоях практически не обновляются, что делает обучение этих слоев невозможным или замедляет его процесс. Полученное решение может использоваться для создания виртуального фитнес-ассистента, работающего в режиме реального времени. Кроме того, данный подход позволит создавать интерактивные обучающие приложения с визуализацией скелетной структуры человека, системы анализа и мониторинга движений в области медицины и реабилитации, а также для разработки систем безопасности с контролем доступа, основанных на анализе визуальных данных о движении частей тела человека.

 

Ключевые слова: компьютерное зрение, нейронная сеть, машинное обучение, скелетная структура.