Структура и компоненты операционного визуального пространства интерактивного поиска научной информации
Н.В. Максимов, О.Л. Голицына, А.Л. Усенко
Национальный исследовательский ядерный университет «МИФИ», Россия
nv-maks@yandex.ru, olgolitsina@yandex.ru, usenko_andrew@mail.ru
Оглавление
4. Средства представления знаний
5. Среда информационного поиска, ориентированная на знания
6. Интерактивная визуальная среда управления информационным поиском
7. Управление когнитивным поиском. Когнитивный рубрикатор
8. Средства управления структурой КР
9. Средства управления контентом
Аннотация
В статье излагаются подходы к моделированию и построению операционного пространства технологических объектов, реализующих интерактивную итеративную технологию как поиска информационных блоков в хранилищах знаний, так и построения из них нового знания – информационных структур, контекстно-согласованных с целью и обстоятельствами конкретного когнитивного процесса. Операционное пространство такой среды обеспечивает использование в качестве запросов графических элементов визуальных представлений результатов поиска и аналитической обработки и должно технологически обеспечить построение самосогласованной семиотической системы, в которой концепты представляют точку зрения (парадигму), онтологии представляют конкретные знания (объекты и связи конкретной предметной области), а знаки являются операционными объектами в процессах «механического» диалога человек-система.
Ключевые слова: информационно-поисковые системы, управление знаниями, технологии информационного поиска, когнитивный рубрикатор, операционная визуальная среда
Любая научная, инновационная или управленческая деятельность, предполагающая получение нового значимого результата, безусловно, должна основываться на актуальной, достоверной и полной информации, которую почти всегда надо искать в тех или иных ресурсах – традиционных или электронных библиотеках, специализированных или нет хранилищах данных. При этом в задачах научного (инновационного) поиска иногда важнее не столько найти наиболее соответствующие запросу документы, сколько не упустить пограничные или аналогичные идеи, т. е. такие документы, которые при поиске по формальным признакам, возможно, будут мало соответствовать запросу, однако в конкретной проблемной ситуации станут тем материалом, который позволит пользователю из отдельных сообщений не только выделить нужные фрагменты, но и построить новое знание. Есть свои особенности и в случае информационного обеспечения задач управления как, например, определение направления деятельности, оценка эффективности, новизны и конкурентоспособности того или иного решения и т.п. Такая обобщающая по своей природе информация может быть только синтезирована на основе содержательного и дистрибутивно-статистического анализа потоков документов, отражающих не только разные парадигмы, но и разные этапы жизненного цикла.
В основной деятельности (ОД) человека знания, информация и данные существуют вполне естественно - имеют соответствующие формы и связаны устойчивыми ассоциациями между собой и со сложившимся набором методов и средств. В информационной же деятельности (ИД) эти объекты (точнее, их образы) в современных условиях информатизации будут представлены в единой, имеющей знаковую природу цифровой форме, и сохранят только те связи, которые при формировании машинного образа будут сочтены как важные. То есть, можно сказать, что унификация формы представления любых объектов (предметов, процессов, знания, символов и т.д.) в вычислительной среде приводит к обезличенности: потеря разнообразия реальных связей превращает знания в отдельные сообщения, которые возможно будут найдены, возможно будут поняты и возможно будут адекватно использованы. Это – первая проблема использования информационно-поисковых систем (ИПС) в задачах управления знаниями. Вторая проблема обусловлена фактором рассеяния информации, что характерно для всех элементов и этапов жизненного цикла генерации/использования знаний. И третья - возможности человека по переработке информации сильно ограничены, поэтому поток разнообразных сообщений, если они не упорядочены в соответствии со схемой познания, не будет полноценно использован для создания нового знания.
ИПС, «связывающая» субъекта познания с хранимыми знаниями, осуществляет «посредническую» функцию обычно через визуальный интерфейс программно-аппаратного комплекса. По мере стремительного возрастания визуализационных и операционных возможностей используемых средств и общего расширения сферы автоматизации ОД, возрастают и возможности ИПС, что приводит к усложнению интерфейсного пространства и увеличению требований к пользователю. Взаимодействие с ИПС переходит к существенно более сложным сценариям, реализующим не только уже всем знакомую функцию «запрос/ответ», но также и аналитическую обработку, вплоть до функций ведения лингвистического обеспечения.
Такие обстоятельства предопределяют необходимость высокого уровня организации интерфейса и системности сценариев взаимодействия, особенно в случае задач информационного обеспечения научных исследований, образования и управления.
В работах [1, 2, 3] представлены подходы к формированию визуального представления объектов предметной области, так называемые метафоры визуализации, осуществляющие сопоставление объектов предметной области с объектами визуализации. Кроме того, вводится оценка таких преобразований - информативность, т.е. способность извлечения полезной информации, которая основывается на визуальной выразительности языка визуализации. Это означает, что в первую очередь средства визуализации должны быть понятны пользователю и иметь возможность отражать изменение самих объектов предметной области. В случаях задач поддержки научного поиска и управления знаниями, которые не являются статичными, логичным способом визуализации развивающейся предметной области исследований может служить ее онтологическое описание. Однако, вследствие сложности и неоднозначности построения и использования сетевых структур, что в частности обсуждается в [4], предпочтительнее способ визуального представления, аналогичный описанию устоявшихся знаний - в виде классификационной структуры.
Для создания и эффективного использования ИПС, ориентированных на знания, необходимо выявить общие свойства и специфику основных объектов и процессов, определить формы и разработать технологии их «естественного» использования в интерактивной визуальной операционной среде. Авторы в настоящей работе опирались на ряд ранее полученных результатов, основные положения которых в целях полноты представления проблемы приведены ниже.
Учитывая в целом изложенные в [5] тезисы, формирование знания основывается на следующих положениях.
· Знание проявляется во взаимодействии человека с доступной (а в общем случае, предоставленной) ему средой. При этом создаваемое знание, которое изначально ориентировано на исследование той или иной предметной области (ПрО), в итоге приводит к преобразованию этой среды.
· Стимулом для познания являются противоречия, которые могут быть разрешены путем структуризации полученных знаний с позиции состоявшегося обобществленного знания или новой точки зрения индивида.
· Технологической основой процесса познания является то, что, получая как факты элементы состоявшегося, проверенного теорией и практикой, знания, за счет его декомпозиции и упорядочения в соответствии с собственной методологической схемой, субъект познания формирует личное знание - новое, по крайней мере, для него самого, которое, в свою очередь, становится объектом проверки, исследования и использования.
Процессы синтеза нового знания, как составляющая эволюции неоднородной среды, относятся к классу самоорганизующихся, т.е. в значительной степени определяются понятием «детерминированный хаос»: случайность в такого рода системах хотя и обязательно имеет место, но ограничена. Это означает, что имеется некоторое преимущественное (потенциально выделенное) направление развития процесса, а элемент случайности обеспечивает возможность появления нового, которое, так или иначе, приводит к нарушению устоявшейся системы, её достраиванию или выходу за собственные пределы [6]. То есть «механизм» генерации нового знания, когда в результате случайного или целенаправленного сочетания информационных объектов синтезируются комбинации, обладающие новыми свойствами, включает:
- выявление «сопрягающей» общности[1] и различий комбинаций;
- выделение и «вписывание» признаков новизны, которые в совокупности порождают новое качество;
- оценку конструктивности (ценности) комбинации и, возможно, генерацию факта оценки эффективности полученной информации (а также, возможно, и фактов – сопутствующих или новых задач, порождаемых в результате процесса синтеза).
Такой подход методологически связывает относительно самостоятельные и, в тоже время, взаимообуславливающие объекты ОД и ИД – документы и классификации. Именно это, при фрагментарной природе процесса познания, обеспечивает целостность и устойчивость его развития. В целом такой развивающийся процесс можно представить двойной спиралью, в которой эволюция фактов (гипотез, методов, результатов), представленная документами, синхронизирована[2] с эволюцией системной точки зрения (парадигмами, организацией знаний и науки), представленной классификациями и понятийно-терминологическими системами.
В основе процессов познания лежат особые свойства человека - субъекта познания, в частности, следующие [7] способности:
- обеспечивать получение и сжатие информации о познаваемом объекте;
- обеспечивать синхронизацию знаний;
- производить вычисления классической логикой и классическим исчислением вероятностей; открывать математические истины;
- иметь разнообразие, превосходящее сжатое разнообразие познаваемого объекта.
Нельзя не учитывать и такую особенность человека, как невозможность однозначно специфицировать (выразить наличными лингвистическими и понятийными средствами) познавательную или информационную потребность, особенно если она связана с начальным этапом познания. Более того, человек знает больше, чем «публикует» («не вербализованная» составляющая). Именно итерационное взаимодействие человека и информационной системы позволит «вытянуть» информацию об объекте исследования не только из информационной системы, но и из сознания человека: система, фиксируя траекторию поисков и используемые при этом информационные образы (возможно, ею сгенерированные, но выбранные человеком), не только позволяет вернуться к любому информационному объекту и пойти по другой траектории, но и вербализует неявные знания человека.
В основе модели синтеза знаний как самоорганизующегося процесса [8] лежит структурная особенность системы - возможность ее разложения на относительно независимые подсистемы. То есть, сложная система может быть описана при помощи набора относительно независимых аспектных представлений (контекстов, построенных над «сеткой» базовых понятий и отношений). Каждое такое описание дает лишь частичное знание о системе в целом, но полное по отношению к данному аспекту. Существенно, что в процессе декомпозиции не только выделяются составляющие, но и формируется схема декомпозиции – система характеристических признаков, в соответствии с которой и проводится декомпозиция.
Накопленные и генерируемые знания (как и процесс познания) обычно достаточно адекватно представляются иерархическими структурами: классификационными схемами, рубрикаторами предметных областей и т.д. Структуры рубрикационного типа представляют механику процесса познания: углубление знаний осуществляется по схеме специализации обычно путем деления текущего целого на части в соответствии со значениями выбранного признака деления. Отражая системность организации науки, фиксируя принятый взгляд на состав и взаимосвязи отдельных разделов и направлений исследований, они формируют и сохраняют методологическое знание. Однако следует отметить, что такое деление будет корректно только для фиксированного, уже состоявшегося знания, а не для того, которое возможно в будущем: выделяя те или иные области исследования и, тем самым, определяя «главные направления», мы неявно имеем еще и «мнимую» область, остающуюся вне процесса познания. Т.е., для развивающейся ПрО такое деление должно быть динамическим.
Более того, в основе представления ПрО обычно используется иерархическая схема разбиения информационного пространства, отражающая разные точки зрения. Отсюда, в частности, следует, что для каждого аспекта ПрО информативные элементы необходимо искать независимо.
В целом эта методика по своей сути является реализацией системного подхода, позволяющего, с одной стороны, представить объект как совокупность однородных (типизированных) элементов, связанных некоторыми отношениями, в совокупности образующими единство, а с другой - представить систему этих однородных объектов в виде классификации, что, в свою очередь, дает возможность выделять в явной форме новые характеристические признаки, определять способы выделения подсистем и на основе свойств соответствия и симметрии обнаруживать связи (в т.ч. и противоречия) с другими системами классификации [9].
Возможности и эффективность информационной системы, ориентированной на поиск научной информации, определяются несколькими существенными факторами, обусловленными природой и особенностями взаимодействующих сторон – человека и системы.
1. ИПС в обобщенной человеко-машинной системе ОД/ИД играет замещающую роль, и поэтому поиск потенциально полезной информации может рассматриваться как процесс построения новой системы знаний, где ИПС выполняет роль «перемешивающего слоя»: формируя и упорядочивая неравноценные комбинации информационных компонентов (выборки документов и терминов), поисковые механизмы готовят альтернативы, а средства систематизации и протоколирования задают (точнее, фиксируют) направления развития, которые пользователь выбирает (а не генерирует) как предпочтительные для последующего синтеза знания.
2. Поиск – это процесс, сводящийся к отбору через сравнение отыскиваемого с хранящимся в массиве, причем сравниваются не сами объекты, а их хорошо структурированные формализованные описания - поисковые образы (ПО). Такие образы должны включать характеризующие документ понятия, но это должны быть скорее обобщенные и известные понятия. В классе поисковых задач такая «обобщенность» достигается снижением детальности понятий и типизацией (упрощением) связей, а также нормализацией лексики. Как самостоятельные информационные объекты ПО изначально создаются не для задач анализа или синтеза знаний – это идентификационный эквивалент объекта (или его описания) в задачах выделения/отождествления объекта среди других.
Для построения поискового образа, идентифицирующего содержание документа, обычно используется та или иная терминологическая система, представляющая собой целостное собрание семантически связанных понятий и существующая, например, в виде тезаурусов и онтологий. И тезаурусы, и онтологии являются сетевыми структурами, в узлах которых находятся понятия, а дуги фиксируют существенные для данного контекста связи. Но при этом, если типология связей в онтологии подобна отношениям в ПрО, основным типом связи в тезаурусе являются родо-видовые, которые отвечают основному методу определения понятий – через род и видовые отличия. Тезаурус является моделью инструмента познания, отражающей, в первую очередь, структуру знаковой системы обычно на уровне отрасли знаний. Онтология же является моделью конкретного объекта и представляет ситуативное знание о предметной области, отражающее разнообразие основных сущностей и характеристических связей между ними, обычно, на уровне отдельного решения или компактной ПрО.
3. В любой ИС преобразование информации является последовательным отражением содержания, а по существу - фильтрацией: снижением степени свободы выражения (и, соответственно, последующего восприятия) смыслового содержания через фиксацию способа выражения, т.е., вынесением части смысла в метаинформационную или контекстную составляющую. Например, научное сообщение предполагает, что собственно предметная область приемнику известна (т.е. достаточно только назвать её); документ – фиксацию варианта способа представления существа объекта через выделение и лингвистическое связывание понятий, смысл которых определен в соответствующей, существующей вполне самостоятельно, понятийно-терминологической системе (глоссарии, онтологии), поисковый образ – фиксацию смысла терминов, особенности употребления которых для данной предметной области определены в тезаурусе.
4. Особенностью диалогового информационного поиска является то, что поисковый запрос обычно включает 3-5 понятий, причем, в общем случае, существо потребности принципиально не может быть сведено к форме вопроса (за исключением односложных), и в запросе, как отмечалось выше, необходимо использовать общепринятые и известные понятия. Такой подход, очевидно, не может обеспечить построение выдачи, идеально соответствующей реальной информационной потребности, предопределяя необходимость последующей оценки самим пользователем реальной полезности каждого выданного документа. Еще недавно такая технология была вполне рациональна, поскольку обеспечивала необходимую полноту отбора при приемлемом объеме просмотра. Ситуация существенно меняется, когда поиск проводится в глобальных политематических хранилищах или даже в специализированных ретроспективных БД, содержащих десятки и сотни миллионов документов: избыточность выдачи при этом существенно превосходит возможности человека. С другой (структурно-семантической) точки зрения, результат научного исследования (обычно представленный в документе) – это комплекс взаимосвязанных смысловых блоков (соответствующих, например, составляющим частям разработки), образ каждого из которых представлен некоторой совокупностью более или менее специфических понятий (что иллюстрируется, в частности и динамикой поиска по запросу в узкой тематической области, приведенной на рис. 1.). Предположение о комплексности ПрО предопределяет необходимость выявления возможных блоков, что при поиске реализуется за счет использования лингвистических и статистических связей, отраженных, например, в тезаурусе, словнике темы или в онтологиях ПрО.
Рис. 1. Пример динамики поиска
Рост эффективности отбора может быть достигнут за счет использования в поисковых образах более точных и специфических понятий, знаковые конструкции которых будут, очевидно, более громоздкими (многословными), синтаксически и семантически более сложными, и потому – возможно, малополезными в традиционном запросно-ответном режиме: при составлении запроса достаточно трудно не только вспомнить точную «конструкцию» такого термина, но и даже ввести его в строке выражения запроса. Однако за счет высокой специфичности они будут, безусловно, использованы не только при оценке потенциальной полезности найденного документа, но и при поиске по технологии реформулирования запроса по обратной связи по релевантности.
С точки зрения технологии процесс поиска можно определить как последовательность шагов, задачи которых - снятие неопределенностей различного типа (лингвистической, семантической, и т.п.), являющихся следствием информационных преобразований в совокупной информационной системе [10]. Т.е., процесс является сложным (составным, не одноактным, итеративным) и обычно реализуется рядом циклов, как представлено на рис. 2, где внутренний цикл обеспечивает приведение лексики пользователя к лексике информационного ресурса (ИР) и далее – отображение формализованного представления информационной потребности на ПрО ресурса, а внешний цикл - возможность реформулирования проблемы по мере накопления знаний, получаемых из ИР.
Рис. 2. Обобщенный алгоритм автоматизированного информационного поиска (приводится по [10])
Приведенная на рис. 2 обобщенная технологическая схема поискового процесса с использованием различных механизмов поиска [11] и с различными по структуре и характеру использования интерфейсными средствами представления запросов отражает следующую существенную особенность информационного поиска. Вследствие рассеяния информации пользователь не может наперед знать содержания ресурса и, соответственно, ответа. Кроме того, обычно объект поиска не задан в виде образца, с которым можно «механически» соотнести найденный результат. Т.е. задача организации процесса поиска имеет оптимизационный характер – при временных ограничениях максимизировать показатели выдачи и получить максимальную (хотя, по своей сути - субъективную) уверенность в качестве поиска за счет предоставления пользователю в процессе диалога альтернативных направлений, а также количественных и качественных оценок их соответствия запросу. Доказательство полноты, показатель которой реально не может быть формально вычислен (по причине принципиальной невозможности полного знания о существующих или создаваемых решениях), компенсируется подтверждаемостью – получением результата другим путем, например, вхождением в информационное пространство БД через информационные объекты разной природы и/или использованием поисковых механизмов разного типа. В частности, оценка степени завершенности (сходимости) процесса поиска может осуществляться по критерию исчерпания прироста лексики и/или документов на итерациях реформулирования (см. рис. 1).
Естественное представление результатов поиска как множества документов также имеет свои особенности, связанные с постобработкой результата в циклическом поисковом процессе.
Во-первых, использование разных механизмов поиска (поиск по совпадению терминов, поиск аналогов, поиск «похожих» документов, поиск с использованием обратной связи по релевантности) предопределяет разнообразие качества результатов поиска по точности, полноте, объему выдачи, что требует ранжирования и ограничения выдачи.
Во-вторых, для инициации новых поисковых циклов могут использоваться документы, полученные на предшествующем шаге поискового процесса - либо непосредственным включением лексики документа в поисковый запрос, либо путем реформулирования запроса по обратной связи.
В-третьих, каждый очередной этап поискового цикла, пополняя коллекцию документов пользователя, в идеале должен тем самым формировать персональную тематическую область. Это означает, что все полученные пользователем результаты должны быть ему доступны, по крайней мере, как множество документов, что в ИПС обеспечивается протоколом поиска. Т.е. результаты становятся такими же элементами для составления запроса (как и термины) при очередном цикле поиска.
Показательным с точки зрения не одношаговой, но достаточно эффективной технологии поиска, примером использования механизма внешних обратных связей, реализованных в ИАС xIrbis [12], является алгоритм, включающий следующие шаги:
1. Формулировка поискового запроса и проведение предварительного поиска.
2. Просмотр результата и выделение истинно (субъективно) релевантных документов.
3. Формирование словника релевантных документов.
4. Просмотр словника и выделение новых терминов.
5. Построение кластеров документов.
6. Просмотр кластеров и формирование результирующей выдачи
На рис. 3 представлен фрагмент лексики релевантных документов. В дальнейших процессах формирования контекстного поля и автоматической кластеризации будут участвовать только термины, отмеченные пользователем. Существенно, что этим обеспечивается возможность включения в поиск специфических, но статистически незначимых терминов.
Рис. 3. Словник, построенный по релевантным документам
Контекстно-определенные кластеры документов (рис. 4) включаются в общий протокол системы и доступны далее не только для просмотра, но и для повторного использования как самостоятельного результата (например, участия в поисковых операциях).
Рис. 4. Контекстно-определенные кластеры документов
Для просмотра контекстно-определенных кластеров могут быть использованы и такие визуальные средства представления результата, как графики и диаграммы количественных распределений, когда документы группируются не по признаку семантической похожести, а по формальной принадлежности, например, одному коллективу, периоду создания, классификационному шифру и т.п. Такие распределения, построенные для профилированных документальных потоков и соответствующих понятийно-лексических систем, во-первых, позволяют получить количественные оценки состояния и тенденций развития ПрО, и, во-вторых, без дополнительного отбора обеспечивают переход от графического элемента (сегмента гистограммы, точки временного ряда) к просмотру соответствующих документов, где каждый документ уже может использоваться как запрос для последующих поисков. Графическое представление результата позволяет наглядно «позиционировать» предмет собственной ОД и (реализуя принцип обратной связи), в случае необходимости, обоснованно и целенаправленно переформулировать реальную ИП, в том числе реструктурируя проблему или задачу.
На рис. 5 приведены временные ряды публикационной активности (рис.5а) и использования специальной лексики (рис.5б), иллюстрирующие динамику развития направления.
Рис. 5. Временные ряды публикаций (а) и публикаций с использованием термина ТРАНСМУТАЦИЯ (б) |
С точки зрения целевого назначения ИПС в процессе поиска пользователю доступны два типа основных операционных объектов – запрос и документ, которые средствами языка представляют некоторый семантически целостный фрагмент предметной области. Другие операционные объекты – технологические – так или иначе, производные от основных. Такими объектами являются, в частности, частотные словари и словники, рубрикаторы, тезаурусы, онтологии и т.д. Их назначение – дать возможность снять или зафиксировать неопределенность отдельного типа.
Операционные объекты лингвистического обеспечения информационного поиска по отношению к теме поиска делятся на два типа – статические и динамические.
К статическим объектам относятся классификационные системы (УДК, ББК, ГРНТИ и т.п), отраслевые информационно-поисковые тезаурусы, частотные словари ИР. Их доступность в процессе поиска позволяет решить обязательные задачи соотнесения терминологии информационного ресурса, принятой терминологии проблемной области и терминологии пользователя.
Однако не менее важными являются и динамические объекты, отражающие текущее состояние документального пространства темы поиска.
На основе частотных словников релевантной лексики уже найденных документов формируется мини-тезаурус[3] темы, родо-видовые связи в котором представлены связями типа «часть-целое», построенными по лексикографическим признакам.
Рис. 6. Фрагмент мини-тезауруса
Мини-тезаурус может быть использован, как инструмент, не только для лексического расширения выражения запроса, но и в качестве отдельного технологического объекта (рис. 6). Таким образом, динамически создается структурно-лингвистическая модель предметной области поиска, отражающая не только общепризнанные, но также и актуальные, характерные для проблемной ситуации особенности представления ИП (в том числе, может быть, и новизну подхода пользователя к решаемой им проблеме).
В то время, как отраслевой тезаурус обеспечивает «навигацию» по понятийной системе и дает понимание степени возможной полноты, точности и специфичности общепринятых (в соответствующей отрасли) терминов, выбираемых для описания и поиска объекта, онтология (рис. 7) обеспечивает «навигацию» по предметной области и дает представление о роли и значимости терминов и состоявшихся связей в конкретном описании. Являясь отражением конкретной ситуации, онтология, построенная, например, на множестве релевантных теме поиска документов, будет, вместе с тем, фиксировать личный (персональный) взгляд на проблему поиска. По ее возможному изменению во времени можно будет судить и об изменении видения проблемной ситуации.
Рис. 7. Пример графа функционально взаимосвязанных понятий
В целом разнообразие ресурсов, справочных компонентов лингвистического обеспечения, технологий поиска и обработки информации иллюстрируется рис. 8.
При этом ни один объект, ни одна технология не может по отдельности обеспечить полноценного результата. Каждый из приведенных выше объектов по своей структуре и поведению достаточно очевидны. Но при этом, каждый из них имеет свою специфическую технологию построения и свою «элементную базу», вследствие чего их невозможно интегрировать аналитически. Перспективным подходом, основанном на человеко-машинной взаимодополняемости, является создание среды, интерактивность которой базируется на тематически-согласованной (в первую очередь с точки зрения пользователя) визуализации, обеспечивающей, благодаря полноте набора и разнообразия технологических объектов, возможность построения объективной оценки состояния поискового процесса и выбора средств его развития (как это показано на рис. КР xIRBIS).
Рис. 8. Пространство когнитивного поиска в среде ИАС xIRBIS
Для проблемного типа поиска [10] характерно то, что помимо отыскания собственно документов (что является конечной целью в случае фактографического и тематического поиска), возможно, надо искать и направление исследования - парадигму (точку зрения, условия и т.п.), в рамках которой информационные блоки найденных документов «выстроят» новое знание.
Но при этом существующие ИПС работают на уровне синтактики и, в лучшем случае, семантики, что может обеспечить построение не более чем правдоподобной выборки («возможного мира» с точки зрения, принятой в системе). Но «возможных миров» в науке много, а «точка зрения» системы может не совпадать с точкой зрения пользователя - решателя конкретной проблемы. Т.о., в процесс поиска необходимо «внедрять» прагматическую составляющую, которая и будет определять когнитивную позицию пользователя – условия и обстоятельства возможного решения. Это предполагает использование в процессе поиска более сложной (чем вербальное выражение) структуры, связывающей реальные объекты ПрО (точнее, их описания), систему понятий (операционные объекты процесса познания) и знаковые системы (используемые для описания объектов) с таксономией (деревом целей) задачи, определяющей структуру процесса поиска, а по существу – направления и условия процесса познания.
Именно для персональных информационных систем, предназначенных в первую очередь для информационно-ориентированного пользователя, существенное значение приобретает визуализация итеративного интерактивного процесса информационного поиска и последовательного формирования оперативного рабочего пространства, поскольку в этом случае оно не ограничивается отдельным множеством найденных документов, релевантных текущей информационной потребности, а представляет собой взаимосвязанную (в рамках направления поиска) совокупность объектов различной природы и назначения – документов, терминов, классификационных структур, поисковых запросов и т.п.
Для формирования пользовательского видения предметной области во взаимосвязи с общепринятой системой понятий и классификацией на интерфейсном уровне предложено использовать специализированный конструктор [13], получивший название когнитивный рубрикатор (КР). Его основное функциональное назначение - интенсионально (через систему классификационных признаков) и экстенсионально (через подборки документов, фрагментов понятийных и терминологических систем) представлять индивидуальные знания, соотнесенные с общепринятыми.
Когнитивный рубрикатор представляет собой (в общем случае) сетевую структуру, узлы которой содержат ссылки на документально-лексическое наполнение отдельной тематической рубрики, а дуги ориентированы в соответствии с основным типом связи «часть-целое».
Отдельная рубрика КР, рассматриваемая как самостоятельный объект, включает две взаимодополнительные составляющие – ссылки на документы, содержательно представляющие тематику, и элементы лингвистического обеспечения как лексико-семантический базис.
Доступ к документам обеспечивается либо в линейной последовательности (документы могут быть при этом отсортированы по значениям отдельных элементов данных), либо кластерами, обычно тематически (или статистически) сгруппированными.
Элементы лингвистического обеспечения представлены фрагментами понятийных и терминологических структур, которые могут быть упорядочены семантически (классификации, тезаурусы, онтологии) или частотно (словари).
Для визуализации КР разработан компонент графического интерфейса типа индицируемое дерево, позволяющий наглядно представить состояние (наполнение) узлов, а также использовать стандартные средства создания нового узла–рубрики и структурной модификации, в частности, на основе технологии «drag and drop».
На рис. 9 представлен внешний вид КР - индицируемого дерева для тематики «Сверхпроводники второго рода».
Рис. 9. Пример когнитивного рубрикатора в виде индицируемого дерева
Возможны структурные операции – добавить/удалить рубрику (с потомками или без) на любом уровне, «перетащить» рубрику (с потомками) в другую ветвь дерева и т.п.
На рис. 10 – пример модификации КР с перемещением рубрики «описание межплоскостного взаимодействия пэнкейков».
Рис. 10. Пример перемещения рубрики
Для визуализации и динамического отображения текущего состояния рубрик предложена двухуровневая схема.
На первом уровне используется интегральный индикатор, который в соответствии с декомпозицией свойств графически (с применением цветового выделения) изображает факты наполненности отдельной рубрики конкретным содержимым.
На рис. 11 изображен индикатор-круг, где каждый сектор своим цветом отвечает за состояние набора свойств.
Рис. 11 Индикатор состояния узлов КР
Второй уровень визуализации предназначен для отображения результатов сравнительного анализа состояний отдельных рубрик для поддержки принятия решения о дальнейшем развитии или модификации КР.
Возможность проведения количественного анализа обеспечивается двумя факторами.
1. Основой анализа является совмещение интенсионального и экстенсионального представления исследуемой предметной области. Интенсиональная составляющая, представленная структурой КР (системой признаков деления), по существу отражает путь познания – существенные свойства объекта познания с т.з. субъекта (исследователя), а также приоритеты и порядок выделения исследуемых составляющих объекта. При этом экстенсиональная составляющая, представленная наполнением узлов дерева, позволяет использовать количественные методы сравнительной оценки состояния отдельных направлений когнитивного процесса. Наконец, КР комплексно представляет процесс, отражая как предметную область (документальное представление), так и инструмент познания – используемую понятийную систему.
2. Хотя свойства КР по своей природе различны (т.е. принадлежат различным типам объектов – документы, запросы, слоники, тезаурусы, рубрикаторы, онтологии) и напрямую не сопоставимы друг с другом, все они имеют семиотическую природу (основным значимым элементом в области информационного поиска является термин - слово, классификационный код, словосочетание и т.п.), что позволяет выполнять их сопоставление (естественно, с преобразованием, в некоторых случаях и неоднозначным).
Интерфейсно второй уровень представлен отдельными диалоговыми окнами, содержащими диаграммы и таблицы (в основном) количественного анализа контента отдельного свойства выделенных пользователем рубрик.
Технологически наиболее конструктивным путем проведения подобного анализа является выделение рубрики, имеющей потомков, для определения корректности ее разбиения. В соответствии с принятой (теоретически) классификационной схемой деления (пересечение подклассов должно быть пустым, объединение подклассов должно давать делимый класс, классификационное дерево должно быть сбалансированным) сформулированы требования по проверке мощности пересечения рубрик.
Если проверить, насколько полно объединение всех сформированных рубрик отражает разрабатываемую предметную область, можно только посредством привлечения субъекта-исследователя, то проверка сбалансированности рубрикатора и степени пересечения рубрик достаточно формализована.
Одним из примеров такой формальной процедуры может служить алгоритм построения терминологического пересечения рубрик.
На рис. 12 изображено диалоговое окно, позволяющее оценить мощность пересечения словников выделенных рубрик. Функционально доступна «обратная связь» - переход к просмотру и редактированию словников отдельных рубрик.
Рис. 12 Пример пересечения по терминологии
Разнотипные объекты интерактивной визуальной среды управления информационным поиском, представленные в виде свойств отдельной тематической рубрики КР, получают новое качество: позволяют отслеживать динамику развития и выявлять взаимосвязи в ПрО. Выявление характеристических кривых и корреляционный анализ документальных потоков и динамики понятийных систем в сочетании с анализом представленных онтологией функциональных связей создает условия для выявления проблемных ситуаций, закономерностей или признаков новизны.
Мини-тезаурусы, получаемые (и используемые) в процессе поиска по отдельным подтемам и аспектам, выделенным в КР, в совокупности с динамикой публикаций образуют ряд тематически связанных объектов, что позволяет не только количественно оценивать динамику поискового процесса в привязке к ОД, но и выявлять особенности развития конкретной ПрО.
Систематизированная визуализация технологических объектов интерактивного процесса поиска средствами когнитивного рубрикатора (рис. 13), по существу представляет «инверсию» ситуации распределенного поиска (см. рис. 8), «интегрируя» конкретные информационные объекты в точке, соответствующей элементу предметной области.
Рис. 13. Систематизированное распределение информационных объектов в узлах рубрикатора ПрО.
Информационный поиск, как и обучение, и научное исследование по существу является процессом познания теми или иными научными методами и имеет траекторию. При этом для каждого субъекта реальное прохождение траектории и результат будут индивидуальными и представляются наборами информационных компонентов (или отдельными компонентами) следующих типов: документально-фактографическими, полноценно описывающими знание и процесс его синтеза; структурно-логическими, представляющими «точку зрения» субъекта; понятийно-терминологическими, используемыми для описания знаний; а также аналитическими, позволяющими оценить адекватность, полноту и согласованность информационной модели ПрО. Следствием индивидуальности траектории является потенциальная множественность возможных информационных моделей, построенных на ограниченном пространстве информационных образов, конкретно используемых субъектом поиска.: то есть, полноценный результат может быть достигнут только при последовательном интерактивном «вытягивании» знаний из информационных ресурсов и, таким образом, формировании множества точек входа.
Интерактивная среда информационно-поисковой системы, ориентированной на слабо формализуемые процессы познания, которым свойственны нелинейность и непредсказуемость, имеет высокую сложность. Кроме того, предполагается использование достаточно разнообразных информационных (технологических) объектов (как следствие последовательного отображения содержания – см. параграф 3, раздела 5), которые не связаны аналитически. Традиционно ИПС ориентируются на «запросно-ответную» схему поиска. И хотя некоторые из них обеспечивают аналитическую обработку и визуализацию ее результатов на уровне текущего ответа (построение распределений, оценка публикационной активности и т.п.), оценка обычно проводится только на уровне текущего статического состояния и не отражает динамики развития поискового процесса.
Предлагаемый подход позволяет (с использованием средств визуализации) построить интегрированный операционный образ поискового процесса и управлять им на уровне структурном и содержательном. Эффективность этого процесса достигается систематизированной визуализацией, синхронизирующей проблемную ситуацию предметной обрасти, когнитивное состояние субъекта и возможности используемых информационных ресурсов.
Когнитивный рубрикатор, который рассматривается как организующая структура процесса научного поиска (см., например, рис. 9), по существу представляет собой информационную модель ПрО – семиотическую систему, где каждый простой или композиционный знак (термин, коллекция, граф, зависимость и т.д.) может рассматриваться как средство уменьшения неопределенности выбора в глобальном понятийном, документальном или аналитическом пространстве (см., например, рис. 8), для которого этот знак является точкой входа (как это представлено на рис. 13).
По сравнению с традиционными ИПС возникает новый, более высокий уровень рассмотрения – комплекс взаимосвязанных объектов, организованных в сравнительно простую иерархическую структуру, отражающую динамически развивающееся представление пользователя об исследуемой предметной области. При этом сама структура может выступать в качестве модели, оперирующей обобщенными образами – индикаторами состояния рубрик, позволяющими судить о степени интереса пользователя к исследованию их тематик и «намечать» направления развития когнитивного процесса, а также использоваться в качестве объекта анализа с привлечением элементов более низкого уровня – документов, запросов, словников терминов и др.
Семантический анализ с использованием элементов нижнего уровня может быть проведен на основе значений свойств рубрик. Например, для выявления возможных структурных противоречий применяется анализ взаимного пересечения множеств значений свойств (на рис. 12 представлен результат взаимного терминологического пересечения рубрик «Перемагничивание внешним полем», «Перемагничивание током» и «Описание межплоскостного взаимодействия пэнкейков»).
В этом контексте визуализация как научный метод, обеспечивает в функционально приемлемой компактной форме согласование представлений технологических информационных объектов – результатов анализа и синтеза текстов и понятийно-терминологических систем. В совокупности такая модель позволяет реализовать ту или иную траекторию в информационном пространстве (термин/документ), обеспечивающую решение прагматической задачи субъекта в конкретном процессе познания.
1. Авербух В.Л. Метафоры визуализации // Программирование, 2001. N 5, с. 3-17.
2. Авербух В.Л. Семиотический подход к формированию теории компьютерной визуализации // Научная визуализация, 2013. N 1, Т. 5, с. 1 – 25.
3. Захарова А., Шкляр А.. Метафоры визуализации // Научная визуализация, 2013. N 2, Т. 5, с. 16 – 24.
4. Касьянов В., Касьянова Е. Визуализация информации на основе графовых моделей //Научная визуализация, 2014. N 1, Т. 6, с. 31 – 50.
5. Savery J.R., Duffy T.M. Problem based learning: an instructional model and its constructivist framework. // Educational Technology, 35, – 1995. - P. 31-38.
6. Князева Н.Н., Курдюмов С.П. Основания синергетики. – М.: КомКнига, 2006, 232с.
7. Гуревич И.М. Законы информатики - основа строения и познания сложных систем. Изд.2, уточ., доп., 2007 400с.
8. Яблонский А. И. Модели и методы исследования науки. Серия: Философы России XX века. - М.: Едиториал УРСС, 2001, 400с.
9. Урманцев Ю.А. Общая теория систем: Состояние, приложения и перспективы развития. Сборник «Система, Симметрия, Гармония", - М., Мысль, 1988, с.38-124.
10. Голицына О.Л. Информационные системы: учебное пособие / Голицына О.Л., Максимов Н.В., Попов И.И.– М.: Форум, 2007. -496с.
11. Голицына О.Л. Моделирование и разработка средств и технологий поиска документальной информации. Дисс. на соискание ученой степени кандидата техн. наук по спец. 05.25.05. – М.: РГГУ, 2004., 178с.
12. Максимов Н.В. Документальная информационно-аналитическая система xIRBIS: программа для ЭВМ. / Максимов Н.В., Васина Е.Н., Голицына О.Л. и др. / Свидетельство о гос. регистрации №2008611511 от 25.03.2008.
13. Максимов Н.В., Голицына О.Л. Об архитектуре и программно-информационных средствах поддержки когнитивных процессов. // Доклад на конф. «Информационные технологии в образовании» – 2009.
The structure and components of the operational visual space for scientific interactive information retrieval
N.V. Maksimov, O.L. Golitsyna, A.L.Usenko
National research nuclear university «MEPhI», Russia
nv-maks@yandex.ru, olgolitsina@yandex.ru, usenko_andrew@mail.ru
Keywords: information retrieval system, knowledge management, information retrieval technologies, cognitive rubricator, operational visual space
The article describes approaches to modeling and constructing of operational space of technological objects that implement the interactive iterative technology as for searching information blocks in the repositories of knowledge and building from them a new knowledge – information structures, context-consistent with the objectives and facts of a particular cognitive process. Operational space of such an environment provides the using of a graphic elements of visual representation of search and its analytical processing results as a search queries and should technologically provide a construction of the self-consistent semiotic system, in which concepts represents viewpoints (paradigm), ontologies represent specific knowledge (objects and connections of a particular application domain), and the signs are operating objects in the process of "mechanical" human-system dialogue.
1. V. L. Averbukh Visualization Metaphors. Yekaterinbourg, Institute for Mathematics and Mechanics Urals Branch of Russian Academy of Science (In Russian),
2. V. L. Averbukh Semiotic approach to forming the theory of computer visualization. Scientific visualization, 2013. N 1, V. 5, p. 1 – 25. (In Russian)
3. A. Zakharova, A. Shklyar Visualization Metaphors// Scientific visualization, 2013. N 2, V. 5, p. 16 – 24. (In Russian)
4. V. Kasyanov, E. Kasyanova Information Visualization on the Base of Graph Models. Scientific visualization, 2014. N 1, V. 6, p. 31 – 50. (In Russian)
5. Savery J.R., Duffy T.M. Problem based learning: an instructional model and its constructivist framework. Educational Technology, 35, – 1995. - P. 31-38. (In Russian)
6. Kurdyumov S., Knyazeva E. Basis of synergetics. – M.: Komkniga, 2006. (In Russian)
7. Gurevich I.M. Zakony informatiki - osnova stroeniya i poznaniya slozhnykh sistem (The laws of science – the basis of the structure and knowledge of complex systems). – M.: Torus Press 2007 (In Russian)
8. Yablonsky A.I. Models and methods of science Serie: The philosophers of the twentieth century Russia. – M.: Editorial URSS, 2001 (In Russian)
9. Urmantsev, Yu.A., General Theory of Systems: State. Applications and Development Perspectives, in Sb. sistema, simmetriya, garmoniya (Coll. Papers ‘System, Symmetry, Harmony’), Moscow: Mysl, 1988, pp. 38–124. (In Russian)
10. Golitsyna, O.L., Maksimov, N.V., and Popov, I.I., Informatsionnie Sistemy: Ucheb. Posobie (Information Systems: Training Manual), Moscow, Forum, 2007, p. 496. (In Russian)
11. Golitsyna, O.L., Modelirovanie i Razrabotka Sredstv I Tekhnologii Poiska Dokumental’noi Informatsii: Dis. Kandidata Tekhn. Nauk (Modeling and Development of Means and Technologies of Document Information Retrieval: Thesis of Candidate of Science), Moscow, RGGU, 2004 (In Russian)
12. Maksimov, N.V., Vasina, E.N., Golitsyna, O.L., et al., Document Information Analytical System xIRBIS, State Registration Certificate No. 2008611511, 2008, Mar. 23. (In Russian)
13. Maksimov, N.V., Golitsyna, O.L. The architecture and softwar-informational means for cognitive processes support. Rep. at the conf.. Information Technology in Education – 2009. (In Russian)
[1] Возможно, не только общих элементов, но и взаимодополняющих, взаимоисключающих и т.д.
[2] Для дискретного процесса такая синхронизация сводится либо к констатации согласованности состояний, либо к обнаружению состояния, когда полученные на очередном шаге результаты не согласуются с предыдущими или не вписываются в принятую систему классификации (т.е. абстрактная модель, представленная в виде классификации, не соответствует ПрО).
[3] Здесь под мини-тезаурусом понимается построенный в автоматизированном режиме словарь нормализованной лексики тематической области, не только упорядоченный по лексикографическому принципу, но и допускающий существование иерархического порядка.