Web-учебник по курсу "Визуальная аналитика"

Тема 1. Концепции и возможности визуальной аналитики

1.1. Что представляет собой визуальная аналитика?

Как показывает практика, одним из современных эффективных методов анализа различных данных является метод визуализации. Он находит в настоящее время широкое применение при решении задач анализа исходных данных в различных областях деятельности человека – научных исследованиях, проектных работах, финансовом мониторинге и др. Решение задач анализа разнообразных исходных данных этим методом мы будем называть визуальной аналитикой. Однако следует отметить, что термин "визуальная аналитика" в настоящее время не является устоявшимся, то есть он может иметь различную смысловую нагрузку.

Визуальная аналитика прошла довольно длинный путь развития от простого анализа функциональных зависимостей, визуализируемых в виде привычных графиков и изолиний, до сложного анализа анимационно визуализируемых глобальных изменений во Вселенной и визуализации потоков денежных средств. Областями применения визуальной аналитики являются различные разделы физики, экономические исследования, медицинские исследования, финансовый мониторинг, геология, метеорология и другие области.

Можно сказать, что основная задача визуальной аналитики — это сделать невидимое видимым. Под невидимым понимаются как реальные, так и абстрактные объекты, непосредственно недоступные человеческому зрению. Реальный объект невидим, если он является "очень большим" (например галактика) или "очень маленьким" (например микро- и наноструктуры реального мира). Абстрактный объект (например, функция многих переменных) невидим в силу своей нематериальной природы.

Суть метода визуализации заключается в том, что исходным анализируемым данным при помощи прикладной программы визуализации ставится в соответствие некоторая их статическая или динамическая графическая интерпретация, которая визуально анализируется, а результаты анализа этой графической интерпретации (графических данных) затем истолковываются по отношению к исходным данным (рис. 1.1.1). Исходные данные, анализируемые методом визуализации, могут иметь различную природу. Наряду с этим, могут различаться и цели анализа исходных данных. Соответственно, могут различаться и используемые графические данные.

Рис. 1.1.1 Метод визуализации

Рассмотрим несколько примеров решения задач анализа исходных данных методом визуализации.

Пример 1. Анализируемыми исходными данными является функция y = f(x) заданная таблично. Методом визуализации анализируются характеристики функции (максимумы, минимумы, разрывы и т.д.). В качестве графических данных используется плоский рисунок, где функция представлена сглаженной линией (рис. 1.1.2). В плоский рисунок для наглядности включены также размеченные и подписанные координатные оси и касательные к графику. Такой плоский рисунок принято называть, как знаем, графиком функции одной переменной.

Рис. 1.1.2

Пример 2. Анализируемыми исходными данными являются конечное множество троек действительных чисел {x1,x2,x3}. Обозначим количество этих троек N. В качестве таких троек могут, например, выступать числовые значения каких-то трех параметров, характеризующих некоторые однотипные реальные или абстрактные объекты, число которых равно N. Методом визуализации анализируется наличие в исходном множестве троек действительных чисел подмножеств таких троек, которые мало отличаются друг от друга. Такие подмножества образуют так называемые кластеры. В качестве графических данных используется плоский рисунок, где каждой тройке {x1,x2,x3} ставится в соответствие закрашенный круг с радиусом граничной окружности равным x1 и координатами центра окружности равными, соответственно, x2 и x3. В плоский рисунок помимо указанных окружностей для наглядности включены также размеченные и подписанные оси (рис. 1.1.3).

Рис. 1.1.3

Пример 3. Анализируемыми исходными данными являются описание некоторой наноструктуры. Методом визуализации анализируется взаимное расположение атомов в пространстве (рис. 1.1.4). В качестве графических данных используется проекция атомов и связей между ними на плоскость, при этом используется общепринятое допущение о шаровом представлении атомов и цилиндрическом – связей между ними.

Рис. 1.1.4 Строение молекулы

Пример 4. Анализируемыми исходными данными являются данные о портфеле участника рынка ценных бумаг. Методом визуализации анализируется зависимость стоимости портфеля от рыночной цены одной определенной акции, а также от течения времени (рис. 1.1.5). Стоимость портфеля – общая стоимость всех ценных бумаг (акций) данного портфеля. В качестве графических данных используются точки, размещенные в трехмерном пространстве, причем соседние 4 точки соединяются гранями, и для наглядности включаются подписанные оси. Цветом для дополнительной наглядности моделируется рыночная стоимость акции

Рис. 1.1.5 Визуализация финансового портфеля

Пример 5. Анализируемыми исходными данными являются данные о воздушном трафике. Методом визуализации анализируется траектория полетов и загруженность направлений (рис 1.1.6). В качестве графических данных используется карта с нанесенными на нее дугами, обозначающими траектории полета воздушных судов. С помощью такой визуализации контролируют безопасность полетов: на более загруженном направлении необходимо большее внимание уделять безопасности.

Рис. 1.1.6 Авиа трафик Индии

1.2. Теоретические основы решения задач анализа данных методом визуализации с использованием компьютеров

Решение задачи анализа исходных данных методом визуализации заключается в последовательном решении 2-ух следующих задач (рис. 1.2.1):

Рис. 1.2.1

Первая задача заключается в получении представления анализируемых данных в виде их некоторого графического изображения (задача визуализации исходных данных). Эта задача решается с использованием компьютера. Вторая задача, которая является не менее важной, заключается в визуальном анализе графического изображения анализируемых данных, полученного в результате решения первой задачи. При этом результаты анализа интерпретируются по отношению к исходным данным. Эта задача решается непосредственно самим человеком.

Алгоритм решения первой задачи предусматривает выполнение следующих шагов (рис. 1.2.2). Совокупность этих шагов, последовательно выполняемых во времени, принято называть конвейером визуализации (visualization pipeline).

Рис. 1.2.2

Задание исходных данных (sourcing) - процесс получения исходных данных конвейера визуализации.

Фильтрация (filtering) - предварительная обработка исходных данных и получение результирующих отфильтрованных данных, которые будут использоваться в дальнейшем для визуализации. Процесс фильтрации не является обязательным и в общем случае может отсутствовать.

Мэппинг (mapping) – отфильтрованным данным ставятся в соответствие двух- или трехмерные геометрические объекты с соответствующими графическими атрибутами. Процесс мэппинга очень важен, так как он во многом определяет эффективность метода визуализации.

Рендеринг (rendering) – получение графического изображения результатов мэппинга.

Следует отметить, что существует большое число различных алгоритмов фильтрации, мэппинга и рендеринга, которые используются в конвейере визуализации.

Дадим более подробную характеристику этих шагов.

Задание исходных данных.

Исходные данные могут быть получены различными способами.

В качестве таких способов можно привести следующие.

  1. Измерения.
  2. Пример. Сюда можно отнести фиксацию различных физических величин при помощи различных входных устройств, определяемых с некоторой временной дискретностью (физические спектры).

  3. Статистическая обработка
  4. Пример. Получение усредненных случайных величин за некоторых интервал времени в процессе их статистической обработки.

  5. Использование информационных источников.
  6. Пример. Определение показателей динамики (изменения во времени) той или иной величины путем использования издаваемых на бумаге специализированных справочников, баз данных на компакт-дисках, информационных ресурсов сети интернет и т.д.

  7. Обработка табличных данных
  8. Пример. При помощи программного продукта Excel можно формировать нужные таблицы из уже имеющихся таблиц путем выполнения над последними некоторых операций, реализованных в Excel.

  9. Моделирование
  10. Пример. Используя математическое моделирование некоторого процесса можно вычислять значения интересующих нас показателей.

  11. Аналитическое задание функций
  12. Пример. Функция одной или нескольких переменных задается, как знаем, с помощью формул.

Фильтрация

Фильтрация данных может осуществляться путем выполнения различных операций над этими данными. В качестве таких операций можно привести следующие.

  1. Интерполяция недостающих данных
  2. Пример. Значения некоторой величины y получены не через равные промежутки времени. В этом случае находятся значения этой величины в промежуточные значения времени.

  3. Сглаживание исходных данных
  4. Пример. Сглаживание значений исходных данных с помощью интерполяционных многочленов, обеспечивающее получение «уточнённого» значения yi по заданному значению yi и ряду близлежащих значений (...,\ y_{i-1},\ y_{i},\ y_{i+1},\ ...), известных со случайной погрешностью.

  5. Выборка из исходных данных
  6. Пример. Из всего объема исходных данных выбираются только те данные, которые удовлетворяют определенному условию.

Отметим, что в общем случае шаг фильтрации может отсутствовать, если исходные данные без каких –либо преобразований используются на следующем шаге мэппинга.

Мэппинг

Существуют 2-а вида мэппинга – 2D-мэппинг и 3D-мэппинг.

В случае 2D-мэппинга отфильтрованным данным ставится в соответствие описание рисунка (выбранного вида), которое включает в себя описание геометрии (геометрической модели) этого рисунка и описание его графических характеристик (атрибутов). Геометрическая модель представляет собой совокупность плоских геометрических примитивов. Примером таких геометрических примитивов могут служить отрезок прямой линии, окружность, сегмент кривой линии, некоторая плоская геометрическая фигура и т.д. В качестве графических атрибутов используются тип линии, цвет линии и заполнение (заливка) плоской геометрической фигуры цветом или рисунком. Описание рисунка может включать в себя описание некоторых элементов рисунка, не связанных непосредственно с отфильтрованными данными, но улучшающих наглядность рисунка. Рисунок, в общем случае, может быть статическим или динамическим, т.е. меняющимся во времени по некоторому закону.

Пример. Отфильтрованным данным в виде таблицы [xi,yi] заданных значений переменных x,y, где y=f(x), ставится в соответствии описание тривиального графика функции одной переменной, т.е. описание конкретных графических данных (пример такого графика был представлен на рис. 1.1.3). Этот график включает в себя сглаженную линию синего цвета. В график помимо кривой функции для наглядности включены также размеченные и подписанные координатные оси, а также касательные к графику (асимптоты).

В случае 3D-мэппинга отфильтрованным данным ставится в соответствие описание пространственной сцены (под которой принято понимать один или несколько пространственных объектов), которое включает в себя описание геометрии (геометрической модели) этой сцены и описание ее графических характеристик (атрибутов). Геометрическая модель представляет собой совокупность пространственных геометрических примитивов или/и сложных геометрических объектов (являющихся результатом выполнения некоторых геометрических операций над пространственными геометрическими примитивами или другими сложными объектами). Примером таких геометрических примитивов могут служить сфера, конус, цилиндр и т.д. Примером сложных геометрических объектов могут служить результаты выполнения аффинных (сдвиг, поворот, масштабирование) и теоретико-множественных (объединение, пересечение, вычитание) операций над геометрическими примитивами или другими сложными геометрическими объектами. В качестве графических атрибутов используется накладываемая на поверхность пространственных объектов текстура. Под текстурой принято понимать цвет или рисунок на поверхности, а иногда и рельеф поверхности.

Описание пространственной сцены может включать в себя описание некоторых элементов, не связанных непосредственно с отфильтрованными данными, но улучшающих наглядность. Пространственная сцена, в общем случае, может быть статической или динамической, т.е. меняющейся во времени по некоторому закону.

Пример. Отфильтрованным данным в виде таблицы [xi,yi,zi] заданных значений переменных x,y,z где z=f(x,y), ставится в соответствии описание пространственной сцены, включающей в себя отсек поверхности c выбранной текстурой и включенные для наглядности размеченные и подписанные координатные оси. Для наглядности выбирается текстура, где цветом моделируется значение переменной z. Пример графических данных, соответствующих такой пространственной сцене, в виде ее проекционного графического изображения, представлен на рис. 1.2.3.

Рис. 1.2.3.

Рендеринг

В результате выполнения предыдущего шага конвейера визуализации формируется описание (модель) плоского рисунка (2D мэппинг) или описание (модель) пространственной сцены (3D мэппинг). Эти модели необходимо графически интерпретировать, т.е. нарисовать плоский рисунок, соответствующий его модели, либо построить графическое проекционное изображение пространственной сцены, аналогично соответствующее ее модели. Процесс построения плоского рисунка, соответствующего его модели, называется 2D-рендерингом. Процесс построения проекционного графического изображения, соответствующего его модели, называется 3D-рендерингом.

Процесс построения плоского рисунка является более простым, чем процесс построение проекционного графического изображения. Для отрисовки как плоского рисунка, так и проекционного графического изображения могут использоваться различные графические терминалы в виде дисплеев и графических плоттеров. Изображение на этих терминалах формируется в виде растра (матрицы) точечных графических элементов (пикселей - picture elements) определенной цветовой закраски.

3D – рендеринг имеет ряд параметров. К ним относятся - камера, источники освещения, среда пространственной сцены. Охарактеризуем эти параметры.

  • Камера. Понятие камеры предусматривает, что любое проекционное изображение пространственной сцены на том или ином графическом терминале может быть получено лишь как результат «фотосъемки» этой сцены с помощью определяемой человеком камеры. При определении камеры указывается ряд ее параметров – расположение в пространстве, направление (линия зрения) камеры, ее фокусное расстояние (угол зрения).
  • Источники освещения. Определяя источник освещения (или несколько источников), человек тем самым определяет освещение пространственной сцены. Для определения некоторого источника освещения необходимо указать значение ряда его параметров, например, тип источника, точку его расположения в пространстве и д.р.
  • Среда пространственной сцены. Определяя среду пространственной сцены человек задает оптические характеристики распространения света в пространственной сцене. В качестве среды, например, можно определить воздушную атмосферу или водяное заполнение пространственной сцены.
  • Как было отмечено выше, пространственная сцена, в общем случае, может быть статической или динамической. Соответственно проекционное графическое изображение пространственной сцены также может быть статическим или динамическим. Динамическое изображение представляет собой набор статических изображений (иначе – кадров), и может характеризоваться , наряду с параметрами используемых статических изображений дополнительными параметрами, как, например, число используемых кадров. Аналогичная ситуация имеет место и в случае плоского рисунка.

    Более подробно вопросы 2D-рендеринга и 3D-рендеринга освещены в любом из учебников по компьютерной графике.

    Заканчивая характеристику 2D-рендеринга и 3D-рендеринга отметим, что 3D – рендеринг представляет собой наиболее интересный случай и с ним в настоящее время и в дальнейшем будет связано большинство приложений визуализации данных. Поэтому при изложении дальнейшего материала при рассмотрении мэппинга и рендеринга мы будем иметь в виду 3D - мэппинг и 3D – рендеринг.

    Как было отмечено в начале параграфа, решение задачи анализа исходных данных методом визуализации включает в себя последовательное решение 2-ух задач – задачи визуализации исходных данных и задачи анализа графического изображения этих данных и интерпретации результатов анализа по отношению к исходным данным.

    Мы рассмотрели основные характеристики процесса решения первой задачи. Рассмотрим теперь характеристики процесса решения второй задачи, а именно визуального анализа графического изображения исходных данных и интерпретации результатов этого анализа по отношению к этим данным. Как анализ, так и интерпретация осуществляются человеком, решающим задачу анализа исходных данных.

    Процесс визуального анализа графического изображения строго не формализуем. Эффективность визуального анализа определяются опытом человека, осуществляющего этот анализ изображения, и его склонностью к пространственно-образному мышлению. Глядя на полученное изображение, человек может решать 3 основные задачи: анализ формы пространственных объектов, анализ их взаимного расположения и анализ графических атрибутов пространственных объектов. Результаты решения этих трех задач, как было указано выше, интерпретируются по отношению к исходным данным.

    Человек может быть либо удовлетворен результатами анализа, либо он для получения лучших результатов повторно выполняет все или часть шагов конвейера визуализации, изменяя значения тех или иных параметров этих шагов. Например, возможно получение различных проекционных графических изображений пространственной сцены в процессе анализа формы пространственного объекта. В результате, процесс решения задачи анализа исходных данных методом визуализации усложняется и становится итеративным и интерактивным.


    Наверх