Научная визуализация

Scientific Visualization

Электронный журнал открытого доступа

Национальный Исследовательский Ядерный Университет "МИФИ"

      ISSN 2079-3537      

 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                                                                                             

Научная визуализация, 2022, том 14, номер 4, страницы 110 - 120, DOI: 10.26583/sv.14.4.10

Визуальная интерпретация статического векторного пространства для текстов на русском языке

Авторы: О.А.  Сериков1, Э.С.  Клышинский2, В.А Ганеева3

Национальный исследовательский университет «Высшая школа экономики», ул. Мясницкая, д. 20, Москва, 101000, Россия

1 ORCID: 0000-0002-3746-2642, srkvoa@gmail.com

2 ORCID: 0000-0002-4020-488X, eklyshinsky@hse.ru

3 ORCID: 0000-0002-9569-9197, vaganeeva@edu.hse.ru

 

Аннотация

С момента появления статических векторных представлений слов было известно, что в них работает задача аналогий. В ней утверждается, что можно найти такой вектор, который переносил бы одно слово в другое, заменяя при этом некоторый признак. Также было известно, что задача аналогий не всегда решается качественно, в связи с чем возникла задача исследования свойств векторных семантических пространств. В данной работе мы вводим метод визуальной интерпретации такого пространства. Основой метода является использование тематических коллекций слов, разделение векторного пространства при помощи метода LSA и визуализация результатов с использованием тепловых карт. В ходе экспериментов мы обнаружили, что векторные пространства могут быть интерпретированы не только на локальном, но и на глобальном уровне. Разделение пространства на части при этом зависит от набора текстов, на котором проводилось создание этого пространства. Метод оказался пригоден для выделения нескольких верхних уровней, так как при увеличении глубины анализа количество слов в группе сокращается экспоненциально.

 

Ключевые слова: Статическое векторное пространство, визуальная интерпретация, LSA.