|
Научная визуализация
Год выпуска: | 2015 |
Квартал: | 2 |
Том: | 7 |
Номер: | 2 |
Страницы: | 50 - 72 |
|
Название публикации: |
ГРАФИЧЕСКИЙ ПОДХОД К ПРОБЛЕМЕ ПОИСКА ПОДОБНЫХ ТЕКСТОВ |
Авторы: |
В.Л. Евсеев (Россия), Г.Г. Новиков (Россия) |
Адреса авторов: |
В.Л. Евсеев
VLEvseev@mephi.ru
Национальный исследовательский ядерный университет «МИФИ», Москва, Россия
Г.Г. Новиков
GGNovikov@mephi.ru
Национальный исследовательский ядерный университет «МИФИ», Москва, Россия |
Краткое описание: |
Данная работа посвящена одному из возможных подходов к разработке системы сравнения текстов возникшему при решении задачи сравнения текстов нормативно-правового характера.
Предложенный метод позволяет отыскать нормативные документы, фрагменты которых похожи на введенный пользователем запрос. Представлен анализ состояния разработок в области нечеткого полнотекстового поиска, из которого следует, что можно выделить следующие методы поиска, реализованные в информационно-поисковых системах разного типа: информационно-поисковые системы и системы выборки данных.
Для решения задачи текстового поиска по сходству было введено понятие «сравнение», которое сводится к отысканию документов находящихся в информационно-поисковой базе, части которых в той или иной мере сходны с исходным поисковым шаблоном. В основу предлагаемого метода положено предположение о том, что сходство документов определяется близостью их изображений в виде текстов без проведения семантического исследования их содержания. В результате, размерность решаемой задачи снижается на несколько порядков и попадает в сферу возможного для общедоступных средств вычислительной техники (персональных компьютеров). Разработана общая структура поискового алгоритма. Для решения задачи поиска похожих текстов построен поисковый словарь, подсловарь и домен образующих цепочек в задаче нечеткого полнотекстового поиска. Это позволило получить множество домен образующих цепочек слов пригодное для оценки релевантности исследуемого текста и поискового шаблона. |
Язык: |
Английский |
|
|
|