ISSN 2079-3537      

 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                                                                                             
Научная визуализация
Год выпуска: 2015
Квартал: 2
Том: 7
Номер: 2
Страницы: 50 - 72
Название публикации: ГРАФИЧЕСКИЙ ПОДХОД К ПРОБЛЕМЕ ПОИСКА ПОДОБНЫХ ТЕКСТОВ
Авторы: В.Л. Евсеев (Россия), Г.Г. Новиков (Россия)
Адреса авторов: В.Л. Евсеев
VLEvseev@mephi.ru
Национальный исследовательский ядерный университет «МИФИ», Москва, Россия

Г.Г. Новиков
GGNovikov@mephi.ru
Национальный исследовательский ядерный университет «МИФИ», Москва, Россия
Краткое описание: Данная работа посвящена одному из возможных подходов к разработке системы сравнения текстов возникшему при решении задачи сравнения текстов нормативно-правового характера.
Предложенный метод позволяет отыскать нормативные документы, фрагменты которых похожи на введенный пользователем запрос. Представлен анализ состояния разработок в области нечеткого полнотекстового поиска, из которого следует, что можно выделить следующие методы поиска, реализованные в информационно-поисковых системах разного типа: информационно-поисковые системы и системы выборки данных.
Для решения задачи текстового поиска по сходству было введено понятие «сравнение», которое сводится к отысканию документов находящихся в информационно-поисковой базе, части которых в той или иной мере сходны с исходным поисковым шаблоном. В основу предлагаемого метода положено предположение о том, что сходство документов определяется близостью их изображений в виде текстов без проведения семантического исследования их содержания. В результате, размерность решаемой задачи снижается на несколько порядков и попадает в сферу возможного для общедоступных средств вычислительной техники (персональных компьютеров). Разработана общая структура поискового алгоритма. Для решения задачи поиска похожих текстов построен поисковый словарь, подсловарь и домен образующих цепочек в задаче нечеткого полнотекстового поиска. Это позволило получить множество домен образующих цепочек слов пригодное для оценки релевантности исследуемого текста и поискового шаблона.
Язык: Английский


Открыть публикацию
 
Открыть публикацию
в русском переводе
   Скачать публикацию в ZIP архиве
 
Скачать публикацию в ZIP архиве
в русском переводе