Научная визуализация

Scientific Visualization

Электронный журнал открытого доступа

 Национальный Исследовательский Ядерный Университет "МИФИ"

      ISSN 2079-3537      

 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                                                                                             





Научная визуализация, 2018, том 10, номер 5, страницы 32 - 44, DOI: 10.26583/sv.10.5.03

Применение методов визуальной аналитики для кластеризации и категоризации задач анализа и обработки данных экспериментов в области физики высоких энергий и ядерной физики

Авторы: Т.П. Галкин1,A, М.А. Григорьева2,B,D, А.А. Климентов3,B,C, Т.А. Корчуганова4,D, И.Е. Мильман5,A, В.В. Пилюгин6,A, М.А. Титов7,B

A Национальный исследовательский ядерный университет “МИФИ”, Россия

B Национальный исследовательский центр “Курчатовский институт”, Россия

C Брукхейвенская Национальная Лаборатория, США

D Национальный исследовательский Томский политехнический университет, Россия

1 ORCID: 0000-0003-2859-6275, TPGalkin@mephi.ru

2 ORCID: 0000-0002-8851-2187, Maria.Grigorieva@cern.ch

3 ORCID: 0000-0003-2748-4829, Alexei.Klimentov@cern.ch

4 ORCID: 0000-0001-5792-8182, Tatiana.Korchuganova@cern.ch

5 ORCID: 0000-0001-9705-9401, Igal.Milman@gmail.com

6 ORCID: 0000-0001-8648-1690, VVPilyugin@mephi.ru

6 ORCID: 0000-0003-2357-7382, Mikhail.Titov@cern.ch

 

Аннотация

При проведении экспериментов на научных установках, таких как LHC, RHIC, KEK, для решения задач в области физики высоких энергий (ФВЭ) и ядерной физики (ЯФ) получены сотни петабайт экспериментальных данных. По мере модернизации ускорителей (повышение энергии и светимости), объемы данных стремительно растут и уже достигли эксабайтной отметки, что также способствует увеличению количества выполняемых задач анализа и обработки данных, непрерывно конкурирующих между собой за вычислительные ресурсы. Последнее обуславливает повышение производительности вычислительной инфраструктуры привлечением высокопроизводительных вычислительных ресурсов, образуя гетерогенную распределённую вычислительную среду (сотни распределённых вычислительных центров). При распределённой модели обработки и анализа данных, оптимизация работы систем управления данными и загрузкой становится фундаментальной задачей, и отсутствие её своевременного решения приводит к экономическим, функциональным и временным потерям. Данная работа описывает первый этап исследований, направленных на решение задачи повышения стабильности и эффективности функционирования распределённых систем обработки данных экспериментов класса мега-сайенс с использованием методов визуальной аналитики - анализа данных с использованием способствующего интерактивного визуального интерфейса. В настоящее время визуально-аналитические методы анализа данных активно применяются в различных областях – в научных исследованиях, проектно-конструкторских работах, управлении, финансовом мониторинге, информационной безопасности. Благодаря средствам анализа, которые поддерживают визуализацию данных, полученные выводы может анализировать любой человек, хорошо осведомленный об объекте исследования, но не обязательно владеющий детальной информацией о внутреннем устройстве модели данных. Кроме того, визуальная аналитика существенно упрощает работу с полученными результатами анализа: данные выводятся в виде графических объектов, с которыми можно взаимодействовать привычными для человека способами - мышью или сенсорными экранами. При этом пространственно-образное мышление человека активно используется для выявления новых тенденций и закономерностей, которые открывают собранные данные, оставляя в стороне необходимость “борьбы” с инструментальными аналитическими средствами.
Возможность использования методов визуальной аналитики в данной работе продемонстрирована на примере данных в эксперименте ATLAS на LHC для кластерного анализа вычислительных задач/заданий системы управления загрузкой PanDA. Исследованы и графически интерпретированы взаимозависимости и корреляции между различными параметрами упомянутых задач/заданий в N-мерном пространстве с использованием трёхмерных проекций. Визуальный анализ позволит выявлять схожие (подобные) задачи, а также аномальные задачи, при этом определять, чем обусловлена аномальность.

 

Ключевые слова: визуальная аналитика, физика высоких энергий, ядерная физика, эксперимент ATLAS, кластерный анализ.