Развитие информационно-коммуникационных технологий в ХХI веке привело к смещению распространения информации из традиционных печатных изданий в электронные. Появились новые средства информирования населения такие как социальные сети и мессенджеры. Передача информации стала происходить практически мгновенно и на большие расстояния. В связи с этим особенно актуальным стало исследование информационных ресурсов на предмет решения задач выявления путей распространения информационных сигналов, определения их искусственности, выявления лидеров мнений в новых информационных ресурсах. В статье приводятся методы решения задач сетевого анализа выявления сетей распространения информации, определения «критических путей» распространения информации на основе анализа информационных материалов мессенджера Telegram.
Сетевые информационные
ресурсы в настоящее время являются основным каналом получения информации о том,
что происходит в стране и мире, происходит переход традиционных СМИ из
бумажного вида в электронный, некоторые издательства полностью отказались от
бумажных версий [1]. В связи с высокой интенсивностью новостного поля многие
издательства переходят на платформы обмена мгновенными сообщениями – такими как
Telegram,
WhatsApp.
На перечисленных платформах
можно создавать специализированные каналы как для информирования населения, так
и для получения обратной связи (функция «комментарий» и графическая реакция на
сообщение) [2]. Данный способ доставки информации характеризуется практически
нулевой стоимостью входа на платформу, так как организация не несет никаких
финансовых затрат по сопровождению и поддержке ресурса.
В настоящее время большое
количество новостных агентств, отдельные персоны (блогеры), коммерческие и
государственные организации, органы исполнительной власти имеют собственные
новостные каналы в мессенджере
Telegram.
Аудитория каналов разнится от нескольких десятков до
нескольких миллионов человек.
В работе исследуются модели
распространения информации на платформe
обмена мгновенными сообщениями
Telegram.
Объектом исследования является отдельное информационное сообщение, которое
может свободно распространяться внутри данной замкнутой среды. Также
Telegram
можно рассматривать
как один из подвидов социальной сети.
Исследование феномена
социальных сетей и методов распространения информации посвящено существенное
количество статей и книг [3, 4]. Отдельно можно выделить [5] системно
рассматриваемую социальную сеть,
как объект.
Исследователи выделяют
несколько классов «теоретико-игровых» моделей социальных сетей:
•
Модели взаимной информированности.
•
Модели согласованных коллективных
действий.
•
Модели коммуникаций.
•
Модели стабильности.
•
Модели информационного влияния и управления.
•
Модели информационного
противоборства.
В статье рассматриваются
модели информационного влияния и управления, обладающие уникальным свойством по
наличию «лидеров мнений» [3]. Авторами разработаны технические средства сбора
текстовой информации и метаданных, связанных с репостами и реакциями на
информационные сообщения и методы их графового анализа.
Рассматривая мессенджер
Telegram
как один из
подвидов социальной сети, можно выделить, что узлами являются такие сущности,
как личности, каналы и группы, а ребрами – информационные сообщения,
принадлежность участников к группам и т.д. [6, 7].
На первом этапе исследования
обеспечивается сбор информации из
Telegram
каналов. Решение этой задачи возможно с использованием
двух информационных ресурсов – собственно
Telegram
и ресурс
TGStat,
предоставляющий
статистику о
Telegram.
Совместное использование
ресурсов позволяет обеспечить полноту собранных информационных сообщений и
метаданных, необходимых для построения моделей распространения информационных
материалов в сети.
Концептуально
механизм сбора представлен
на рисунке
(Рисунок 1).
Рисунок
1.
Концептуальная
схема сбора данных
Существует три основных
способа взаимодействия с
Telegram:
при помощи приложений (мобильное и десктопное), при
помощи браузера или с помощью программного интерфейса -
API.
В
работе используется последний способ, поскольку он позволяет наиболее полно и
оперативно собирать данные. Согласно
Telegram
API
каждое
сообщение характеризуется 29 признаками, однако наиболее существенными для
исследования распространения информации являются:
•
Id
– идентификатор сообщения в канале,
•
peer_id – информация о канале,
•
date – дата и время публикации,
•
message – информационное
сообщение,
•
fwd_from – информация о
переадресованных сообщениях.
Параметр
fwd
_
from
состоит из 10 характеристик, из них существенными являются:
•
date
– дата и время публикации,
•
from
_
id
– информация о канале-первоисточнике,
•
channel
_
post
– идентификатор переадресованного сообщения в канале
источника.
Количество каналов в
Telegram
превосходит 300
тысяч, в рамках эксперимента анализ проводился на ограниченной выборке из 30
каналов, с общей аудиторией более 3,5 млн пользователей. Каналы были отобраны
по аудитории и не связаны тематической направленностью.
После реализации механизмов
сбора информации была разработана модель данных для вывода на орграф. Узлами
служат каналы, дугами – факт наличия переадресации сообщения из одного канала в
другой. Узел графа определяется следующими полями:
•
Id – идентификатор узла,
•
label – идентификатор канала
согласно Telegram API,
•
name – название канала.
Дуга определяется следующими
полями:
•
Source – идентификатор начального
узла,
•
Target – идентификатор конечного
узла,
•
Type – тип ребра (directed -
ориентированное),
•
Weight – вес узла,
•
Date
– дата переадресации сообщения.
Распространение
информационного сообщения в
Telegram
может
быть рассмотрено с двух сторон: с точки зрения причин и предсказания. Adrien
Guille
et
al. [3]
описывает данные модели для
распространения сообщений между пользователями, однако данный подход может быть
применен и для
Telegram,
если в качестве пользователей рассматривать
отдельные каналы. Выдвинем гипотезу, что некоторые каналы связаны между собой
сильнее, чем остальные. Выявить данную взаимосвязь, а также получить
предсказательную модель можно путем сравнения отдельных путей распространения.
Для этого необходимо рассмотреть их структуру.
С точки зрения теории графов
путь распространения можно рассматривать как ориентированное дерево, для
которого у каждого родителя может быть несколько потомков. При этом дерево, как
граф, может быть как пронумерованным по вершинам, так и не пронумерованным.
Если рассматривать путь
распространения как граф, то для сравнения этих путей между собой можно
воспользоваться, например, следующей метрикой [8]:
(1)
где
,
msg
(
) – максимальный
общий подграф, |
| - мощность
графа
i
Недостаток данной метрики
заключается в трудоемкости алгоритмов по нахождению максимального общего
подграфа, и в том, что она не учитывает структуру построения графа. Существуют
и другие метрики [9, 10], однако они также не учитывают тип графа.
Для определения схожести
объектов воспользуемся редакционным расстоянием [11]. Редакционное расстояние –
это метрика, определяемая как минимальное количество односимвольных операций (а
именно вставки, удаления, замены), необходимых для превращения одной
последовательности в другую. В случае пронумерованных по вершинам деревьев
номером узла будет
id
Telegram-канала,
и тогда пути
распространения для различных тематик будут сильно отличаться с точки зрения
редакционного расстояния. Поэтому, чтобы сравнивать между собой пути, которые
распространяются по разным каналам, используются непронумерованные каналы – в
этом случае можно получаются более общие выводы.
Редакционное расстояние для
ориентированных немаркированных деревьев может быть вычислено на основе их
строкового представления [12].
В данной работе авторами
рассматривается подход визуального анализа графа. Для этого будем сопоставлять
каждому объекту граф по следующим правилам:
1.
Каждый узел будет иметь глубину
распространения.
2.
Каждая дуга будет иметь вес,
обратно пропорциональный времени переадресации.
С мессенджера
Telegram
было собрано 395
795 информационных сообщений за 3 месяца, которые были
преобразованы для графового представления, произведена визуализация при помощи
инструмента
Gephi
[13]. Выбор данного инструмента обусловлен удобным
интерфейсом и возможностью добавления динамической составляющей.
Сперва был реализован граф
для 30 каналов и их выходом на внешние источники
(Рисунок 2).
На
данном рисунке зеленым цветом выделены каналы, для которых осуществлялись сбор
сообщений, красным – те каналы, с которых шла переадресация. Размер узла прямо
пропорционален количеству сообщений, которые были переадресованы с данного
канала.
Рисунок
2.
Граф
взаимосвязей информационных каналов
Рассматривая граф, можно
увидеть определенную однородность информационного поля в центре, что
характеризует сильные взаимосвязи между участниками информационного поля.
Широкий спектр «бутонов» на периферии говорит о количестве каналов, за которыми
осуществляется наблюдение. Также можно сделать предварительные выводы о
количестве уникального контента, генерируемым каналом. Чем больше «тупиковых»
ребер, тем меньше уникального контента производится. Конечно, для подтверждения
данного утверждения необходимо проводить дополнительные исследования по оценке
соотношения контента внутри информационного канала, что является одним из
продолжений исследования авторов.
Заметим и другую особенность
– наличие рефлексивных дуг (как на выделенном фрагменте на рисунке
Рисунок
2),
то есть некоторые каналы
ссылаются на свои же сообщения. Это может подтвердить авторитетность каналов, однако
негативно влияет на общее восприятие информационного поля.
Вторым этапом стало
расширение набора каналов для сбора сообщений до 35 штук. В выборку были
добавлены каналы с наибольшем количеством связей, исходя из анализа графа
(Рисунок 2),
после
чего были построены новые графы. Для них была убрана рефлексивная связь и
добавлено дополнительное цветовое оформление для улучшения восприятия.
Сначала построен граф для получения
общей статистики по каналам
(Рисунок 3).
Интерес для исследователей может быть представлен с нескольких сторон.
Во-первых, выделяются явные
лидеры мнений («8», «3», «23»), на которые чаще всего ссылаются другие каналы.
С другой стороны, можно отследить, что канал «4» чаще всего берет информацию из
канала «5», а остальные сообщения берет из каналов, к которым более никакой
авторитетный канал не аффилирует.
Рисунок
3.
Граф
взаимосвязей информационных каналов для этапа 2
Рисунок
4. Динамический граф взаимосвязей
информационных каналов
Второй граф строился с учетом
динамической составляющей по дате переадресации на целевой канал
(Рисунок 4).
Преимущество использования
данного подхода состоит в возможности оценки потока пересылаемых сообщений за
различные промежутки времени. Выборка данных взята за исследуемые 3 месяца 2022
года, что явно показано на рисунке (при переводе
timestamp
в
дату), можно увидеть всплеск публикаций в середине выборки (порядка 20%), что
говорит о существенном инфоповоде, произошедшем в данный промежуток времени.
Кроме того, можно отметить, в какое время идет взаимодействие обособленных
каналов («16», «33», «34») с более центральными.
Ограничение данного способа
состоит в том, что размер узлов (пропорциональных количеству ссылок на канал)
не изменяет свой размер за различные интервалы времени.
Распространение
информационного сообщения может быть описано с помощью вероятностной модели.
При этом одним из возможных способов для анализа выступает каскадная модель
заражения [4]. Поскольку работа нацелена на получение предсказательной модели и
обнаружение аномальных явлений в графе, а время распространения может занимать
от нескольких минут, то нескольких дней, то данная модель является
недостаточной для проведения анализа. С другой стороны, можно сравнить пути
распространения с точки зрения редакционного расстояния и визуально. При этом
графическое представление, теоретически, позволит оперативно выделять аномалии
на отдельно взятом примере.
Распространение
информационного сигнала в
Telegram
показано с помощью средства для визуализации
Gephi.
Метка ребер вычисляется как
разница по
времени (в минутах) между публикацией сообщения в канале
i
и его
переадресацией в канале
j,
а вес ребра
определяется по следующей формуле:
(2)
где
k
– коэффициент
пропорциональности (в работе
k
=10),
– разница по
времени (в минутах) между публикацией сообщения в канале
i
и его переадресацией в канале
j.
Для анализа выбрано 170
объектов. Из 170 объектов обнаружено 48 пар (0.4%) (в среднем 12 вершин в одном
графе), в которых редакционное расстояние удовлетворяет условию:
(3)
Рассмотрим несколько
полученных примеров
(Рисунок 5,
Рисунок 6).
На каждом из приведенных графов используется
цветовая гамма для разделения узлов по глубине распространения, а числовое
обозначение является меткой ребер.
Рисунок
5.
Иерархические
представление графа распространения
Рисунок
6.
Представление графа
распространения методом ForceAtlas2
На первом графе можно
выделить две особенности. Во-первых, некоторые сообщения передаются практически
сразу, в то время как другие передаются значительно позднее. С другой стороны,
некоторые посты передаются с точностью до минуты, хотя занимают достаточно длительное
время. Так, например, на первом графе выделяются ребра с временами
переадресации 231 минута на уровне 2; с временами переадресации 74 и 533 минут
на уровне 3. Поскольку из 18 ребер присутствует 3 пары полностью идентичных
ребер (по времени и отсутствию дочерних элементов) возникает предположение о
связи каналов-приемниках в парах между собой или же о намеренном переадресации
информационных сигналов.
Второй граф представляет одну
из самых больших сетей распространения, содержит 165 узлов и максимальную
глубину 7. Алгоритм визуализации
ForceAtlas2
адекватно разместил
узлы по глубине распространения. На данном примере выделена цепочка узлов, которая
отвечает главному распространению. В подавляющем числе случаем переадресация
сообщений происходит именно с этих узлов, что говорит об авторитетности данных
каналов. Выявленная цепочка ассоциативно похожа на критический путь диаграммы
Ганта [14,15], используемый в теории управления проектами.
Введем понятие критического
пути распространения сигнала как последовательность узлов, участвующих в
распространении информационного сигнала, обеспечивающую наибольший
информационный охват.
Дополнительно введем
характеристику времени для этого построим граф, для которого у каждого узла
будет метка «время с начала распространения» (в часах)
(Рисунок 7).
На
данном графе 2 критических пути - они содержат по 8 узлов, время до
переадресации в концевые узлы составили 858 часов (35 суток) и 778 часов (32
суток).
Рисунок
7.
Критический
путь распространения информационного сигнала
Социальные сети и платформы
обмена мгновенными сообщениями представляют собой поле для исследования
информационных сигналов. Задачами такого исследования являются определение
характера распространения, определение взаимосвязей между отдельными
субъектами/объектами и построение прогностической модели распространения.
В работе решались две задачи:
анализ распространения информации в
Telegram
для наиболее популярных
каналов (30 каналов в начальной выборке) и рассмотрение отдельных
информационных сигналов. Анализ взаимодействия каналов потенциально позволяет
выявлять «лидеров мнений», «агрегаторов» информации и всплески активности по
переадресации.
Распространение отдельных
информационных сообщений может быть описано теорией графов, однако возникают
трудности при сравнении построенных «деревьев». Сравнение графов можно провести
при помощи вычисления редакционного расстояния, однако невозможность
использования временных характеристик (время переадресации) накладывает
ограничение на использование данной метрики.
С другой
стороны, визуальное представление подобных объектов позволяет выделить
критические места, такие как идентичные способы распространения сообщения
(одинаковое время распространения). Отдельным классом задач стоит исследование «критических
путей» распространения сигналов, что позволит решать широкий круг задач,
связанных с управлением и противоборством в информационных сетях, в том числе
идентификации первоисточников, путей распространения информации, «лидеров
мнений».
2. Kulik,
S. (2016). Factographic information retrieval for competences forming // 2016
3rd International Conference on Digital Information Processing, Data Mining,
and Wireless Communications, DIPDMWC 2016, 2016, pp. 245–250, 7529397.
3. Guille,
A., Hacid, H., Favre, C., & Zighed, D. A. (2013). Information diffusion in
online social networks. In ACM SIGMOD Record (Vol. 42, Issue 2, pp. 17–28).
Association for Computing Machinery (ACM). https://doi.org/10.1145/2503792.2503797.
4. M.
Gomez Rodriguez, J. Leskovec, and A. Krause. Inferring networks of diffusion
and influence. In
KDD’10,
pages
1019–1028, 2010.
5. Губанов Д.А.,
Новиков Д.А., Чхартишвили А.Г. Модели влияния в социальных сетях (обзор) //
Управление большими системами, 2009.
№27.
С. 205-281.
6. Ulizko,
M. S., Antonov, E. V., Artamonov, A. A., & Tukumbetova, R. R. (2020).
Visualization of Graph-based representations for analyzing related
multidimensional objects. In Scientific Visualization (Vol. 12, Issue 4).
National Research Nuclear University MEPhI (Moscow Engineering Physics
Institute).
https://doi.org/10.26583/sv.12.4.12.
7. Cherkasskiy,
A., Artamonov, A., Cherkasskaya, M., and Leonova, N. (2021). Methods for
identifying an information object in social networks // Procedia Computer
Science, 2021, 190, pp. 137–141. https://doi.org/10.1016/j.procs.2021.06.017.
8. Bunke
H. and Shearer K. A graph distance metric based on the maximal common subgraph
// Pattern Recognit. Lett., 1998, vol. 19, no. 3–4, pp. 255–259.
9. Wallis
W., Shoubridge P., Kraetz M., and Ray D. Graph distances using graph union // Pattern
Recognit. Lett. 2001. V. 22. P. 701–704.
10. Moskin,
N. D. (2021). Metric for comparing graphs with ordered vertices based on the
maximum common subgraph. In Prikladnaya Diskretnaya Matematika (Issue 52, pp.
105–113). Tomsk State University. https://doi.org/10.17223/20710410/52/7.
11. S.
Y. Lu, A tree-to-tree distance and its application to cluster analysis, IEEE
Trans. Pattern Anal. Mach. Intelligence, (1979), pp. 219-224.
12.
Nettleton, D. F., & Salas, J. (2016). Approximate Matching of Neighborhood
Subgraphs — An Ordered String Graph Levenshtein Method. In International
Journal of Uncertainty, Fuzziness and Knowledge-Based Systems (Vol. 24, Issue
03, pp. 411–431). World Scientific Pub Co Pte Lt.
https://doi.org/10.1142/s0218488516500215.
The development of information and communications technology in the 21st century has led to a shift in the distribution of information from traditional print media to electronic media. New means of informing the public have emerged, such as social networks and messengers, which made it possible to share information almost instantly and over long distances. In this regard, it has become a daunting task to analyze the patterns of information spreading, particularly, by studying information sources, revealing hidden interests and bias, identifying opinion leaders. The article presents methods for solving the problems of network analysis of identifying information dissemination patterns, determining «critical paths» of information dissemination by analyzing messages and news in the Telegram messenger.
2. Kulik,
S. (2016). Factographic information retrieval for competences forming // 2016
3rd International Conference on Digital Information Processing, Data Mining,
and Wireless Communications, DIPDMWC 2016, 2016, pp. 245–250, 7529397.
3. Guille,
A., Hacid, H., Favre, C., & Zighed, D. A. (2013). Information diffusion in
online social networks. In ACM SIGMOD Record (Vol. 42, Issue 2, pp. 17–28).
Association for Computing Machinery (ACM). https://doi.org/10.1145/2503792.2503797.
4. M.
Gomez Rodriguez, J. Leskovec, and A. Krause. Inferring networks of diffusion
and influence. In KDD’10, pages 1019–1028, 2010.
5. Gubanov
D.A., Novikov, D.A., Chkhartishvili A.G. Modeli vliyaniya v social'nyh
setyah (obzor) // Upravlenie bol'shimi sistemami, 2009. №27. S. 205-281.
6. Ulizko,
M. S., Antonov, E. V., Artamonov, A. A., Tukumbetova, R. R. (2020).
Visualization of Graph-based representations for analyzing related
multidimensional objects. In Scientific Visualization (Vol. 12, Issue 4).
National Research Nuclear University MEPhI (Moscow Engineering Physics
Institute).
https://doi.org/10.26583/sv.12.4.12.
7. Cherkasskiy,
A., Artamonov, A., Cherkasskaya, M., and Leonova, N. (2021). Methods for
identifying an information object in social networks // Procedia Computer
Science, 2021, 190, pp. 137–141. https://doi.org/10.1016/j.procs.2021.06.017.
8. Bunke
H. and Shearer K. A graph distance metric based on the maximal common subgraph
// Pattern Recognit. Lett., 1998, vol. 19, no. 3–4, pp. 255–259.
9. Wallis
W., Shoubridge P., Kraetz M., and Ray D. Graph distances using graph union // Pattern
Recognit. Lett. 2001. V. 22. P. 701–704.
10. Moskin,
N. D. (2021). Metric for comparing graphs with ordered vertices based on the
maximum common subgraph. In Prikladnaya Diskretnaya Matematika (Issue 52, pp.
105–113). Tomsk State University. https://doi.org/10.17223/20710410/52/7.
11. S.
Y. Lu, A tree-to-tree distance and its application to cluster analysis, IEEE
Trans. Pattern Anal. Mach. Intelligence, (1979), pp. 219-224.
12.
Nettleton, D. F., & Salas, J. (2016). Approximate Matching of Neighborhood
Subgraphs — An Ordered String Graph Levenshtein Method. In International
Journal of Uncertainty, Fuzziness and Knowledge-Based Systems (Vol. 24, Issue
03, pp. 411–431). World Scientific Pub Co Pte Lt.
https://doi.org/10.1142/s0218488516500215.