Математика и математическое моделирование. 2017; : 64-76
Применение метода ветвей и границ при решении задачи нечеткого поиска методом хеширования по сигнатуре в локальных базах данных
https://doi.org/10.24108/mathm.0317.0000077Аннотация
В статье освещена актуальная задача нечеткого информационного поиска в локальных базах данных. На основе существующего анализа методов координатного индексирования для глобального поиска был выбран метод хеширования по сигнатуре. Он дает наименьшие временные характеристике при поиске. Анализ этого метода при применении локальных базах данных показал, что существует ряд недостатков, среди которых большой размер индекса сигнатуры, необоснованное распределение символов алфавита в группах, неравномерность количества термов, соответствующих одной сигнатуре. Часть недостатков устраняется при проведении исследования. Показано, что для устранения недостатка большого размера индекса сигнатуры возможно использование лингвистических и статистических методов обработки текста. Это позволяет сократить число термов, участвующих в анализе, уменьшить размер индекса и количество термов, соответствующих одной сигнатуре.
Задача нечеткого поиска заключается в осуществлении поиска при возможных ошибках в запросе. В статье особое внимание обращено на анализ возможных ситуаций при разнице в индексах запроса и образа терма в базе в одном бите. По результатам теоретического анализа сделан вывод, что часто при нечетком поиске возникает задача сравнения битовых последовательностей. Реализуемые на данный момент алгоритмы побитового сравнения индексов не рассматривают такой тип задач. В связи с этим, на основе метода ветвей и границ, разработана целевая функция для сравнения индексов. Отметим, что задача получения битовых последовательностей термов не рассматривалась. Теоретический анализ целевой функции показал, что оптимальные временные и вычислительные затраты достижимы на заданном множестве. Разработано ограничение (граница), которая позволяет сократить временные затраты и во многих случаях не сравнивать индексы запроса и образа термов полностью. Все шаги в исследование были направлено на сокращение временных и вычислительных затрат, что в условиях локального поиска актуально.
В заключении отмечено, что разработанная целевая функция по методу ветвей и границ может быть дальше исследована на применение ограничений. Также, в качестве направления для изучения, выбран возможный вероятностный анализ распределения термов в группах для метода хеширования по сигнатуре.
Список литературы
1. Национальный корпус русского языка: Сайт. Режим доступа: http://www.ruscorpora.ru/index.html (дата обращения 06.07.2017).
2. Маннинг К.Д., Прабхакар Рагхаван, Шютце Х. Введение в информационный поиск: пер. с англ. М.: Вильямс, 2011. 520 с. [Manning Ch.D., Prabhakar Raghavan, Schutze H. Introduction to information retrieval. Camb.; N.Y.: Camb. Univ. Press, 2008. 482 p.].
3. Цукерт А.Г. Проблемы и перспективы информационного поиска // Изв. Таганрог. гос. радиотехн. ун-та. 2001. Т. 21. № 3(21). С. 194–201.
4. Задачи поисковых систем. Режим доступа: http://asknet.ru/Technology/searchtask.htm (дата обращения 06.07.2017).
5. Зупарова Л.Б., Зайцева Т.А. Аналитико-синтетическая переработка информации: учебник. М.: ФАИР, 2008. 400 с.
6. Сметанин Н. Нечёткий поиск в тексте и словаре. Режим доступа: https://habrahabr.ru/post/114997/ (дата обращения 06.07.2017).
7. Хруничев Р.В. Принципы построения многомерного пространства терминов в процессе анализа предметно-ориентированной коллекции документов // Вестник Астрахан. гос. техн. ун-та Сер.: Управление, вычислительная техника и информатика. 2012. № 1. С. 136-141.
8. Zipf G.K. Selected studies of the principle of relative frequency in language. Camb.: Harvard Univ. Press, 1932.
9. Гиляревский Р.С. Основы информатики: Курс лекций. М.: Экзамен, 2003. 318 с.
10. Мосалев П.М. Обзор методов нечеткого поиска текстовой информации // Вестник Моск. гос. ун-та печати им. И. Федорова. 2013. № 2. С. 87-91.
11. Нгуен Ной Хыу. Обзор некоторых алгоритмов нестрогого сопоставления записей применительно к задаче исключения дублирования персональных данных // Молодой ученый. 2013. № 5. С. 163-166.
12. Бойцов Л.М. Поиск по сходству в документальных базах данных: хеширование по сигнатуре оптимальное соотношение скорости поиска, простоты реализации и объема индексного файла [текст] // 8-я Междунар. конф. «Математика. Компьютер. Образование»: МКО 2001 (Москва, 2-4 октября 2001 г.): Труды. М.: Прогресс-Традиция, 2001. С. 177-183.
13. Панкратов И.В. Одновременный поиск нескольких двоичных шаблонов в потоке с помощью конечного автомата // Прикладная дискретная математика. 2014. № 2(24). С. 119–125.
14. Побитовые операторы. Режим доступа: https://learn.javascript.ru/bitwise-operators (дата обращения 06.07.2017).
Mathematics and Mathematical Modeling. 2017; : 64-76
Method of Branches and Boundaries to Solve a Fuzzy Search Problem by Hash Signature Method in Local Databases
https://doi.org/10.24108/mathm.0317.0000077Abstract
The article highlights a relevant problem of fuzzy information search in local databases. A choice of the hash signature method was based on the existing analysis of coordinate indexing methods for global search. When searching, it provides the least time characteristics.
Analysis of using this method in local databases has shown that there are a number of shortcomings such as a large size of the signature index, an unjustified distribution of the alphabet symbols in groups, the uneven number of terms corresponding to one signature.
Some of the shortcomings were eliminated in the course of research activities. It is shown that to eliminate the drawback of a large size of the signature index the linguistic and statistical methods of text processing can be used. This allows you to reduce the number of terms involved in the analysis, reduce the size of the index and the number of terms that correspond to one signature.
A task of the fuzzy search is to search for possible errors in the query. The article draws special attention to the analysis of possible situations when there is a difference in indices of the query and the image of the term in the database in one bit. Based on the results of the theoretical analysis, it was concluded that when conducting the fuzzy search a problem of comparing bit sequences often arises. The currently implemented algorithms for bitwise index comparisons do not consider this type of tasks. In this connection, a target function to compare indices has been developed on the basis of the branch and boundary method. Note that the problem of obtaining bit sequences of terms was not considered. A theoretical analysis of the target function has shown that the optimal time and computational costs are attainable for a given set. A constraint (boundary) has been developed. It allows us reduce time costs and in many cases not compare indices of the query and the image terms completely. All the steps in the study were aimed at reducing the time and computational costs, which in the conditions of local search is relevant.
In conclusion, it was noted that the target function developed by the branch and boundary method can be further investigated for the application of constraints. Also, as a direction for studying, a possible probabilistic analysis of the distribution of terms in groups for the hash signature method was chosen.
References
1. Natsional'nyi korpus russkogo yazyka: Sait. Rezhim dostupa: http://www.ruscorpora.ru/index.html (data obrashcheniya 06.07.2017).
2. Manning K.D., Prabkhakar Ragkhavan, Shyuttse Kh. Vvedenie v informatsionnyi poisk: per. s angl. M.: Vil'yams, 2011. 520 s. [Manning Ch.D., Prabhakar Raghavan, Schutze H. Introduction to information retrieval. Camb.; N.Y.: Camb. Univ. Press, 2008. 482 p.].
3. Tsukert A.G. Problemy i perspektivy informatsionnogo poiska // Izv. Taganrog. gos. radiotekhn. un-ta. 2001. T. 21. № 3(21). S. 194–201.
4. Zadachi poiskovykh sistem. Rezhim dostupa: http://asknet.ru/Technology/searchtask.htm (data obrashcheniya 06.07.2017).
5. Zuparova L.B., Zaitseva T.A. Analitiko-sinteticheskaya pererabotka informatsii: uchebnik. M.: FAIR, 2008. 400 s.
6. Smetanin N. Nechetkii poisk v tekste i slovare. Rezhim dostupa: https://habrahabr.ru/post/114997/ (data obrashcheniya 06.07.2017).
7. Khrunichev R.V. Printsipy postroeniya mnogomernogo prostranstva terminov v protsesse analiza predmetno-orientirovannoi kollektsii dokumentov // Vestnik Astrakhan. gos. tekhn. un-ta Ser.: Upravlenie, vychislitel'naya tekhnika i informatika. 2012. № 1. S. 136-141.
8. Zipf G.K. Selected studies of the principle of relative frequency in language. Camb.: Harvard Univ. Press, 1932.
9. Gilyarevskii R.S. Osnovy informatiki: Kurs lektsii. M.: Ekzamen, 2003. 318 s.
10. Mosalev P.M. Obzor metodov nechetkogo poiska tekstovoi informatsii // Vestnik Mosk. gos. un-ta pechati im. I. Fedorova. 2013. № 2. S. 87-91.
11. Nguen Noi Khyu. Obzor nekotorykh algoritmov nestrogogo sopostavleniya zapisei primenitel'no k zadache isklyucheniya dublirovaniya personal'nykh dannykh // Molodoi uchenyi. 2013. № 5. S. 163-166.
12. Boitsov L.M. Poisk po skhodstvu v dokumental'nykh bazakh dannykh: kheshirovanie po signature optimal'noe sootnoshenie skorosti poiska, prostoty realizatsii i ob\"ema indeksnogo faila [tekst] // 8-ya Mezhdunar. konf. «Matematika. Komp'yuter. Obrazovanie»: MKO 2001 (Moskva, 2-4 oktyabrya 2001 g.): Trudy. M.: Progress-Traditsiya, 2001. S. 177-183.
13. Pankratov I.V. Odnovremennyi poisk neskol'kikh dvoichnykh shablonov v potoke s pomoshch'yu konechnogo avtomata // Prikladnaya diskretnaya matematika. 2014. № 2(24). S. 119–125.
14. Pobitovye operatory. Rezhim dostupa: https://learn.javascript.ru/bitwise-operators (data obrashcheniya 06.07.2017).
События
-
Журнал «Концепт: Философия, религия, культура» принят в Scopus >>>
9 июл 2025 | 13:25 -
К платформе Elpub присоединился журнал «The BRICS Health Journal» >>>
10 июн 2025 | 12:52 -
Журнал «Неотложная кардиология и кардиоваскулярные риски» присоединился к Elpub >>>
6 июн 2025 | 09:45 -
К платформе Elpub присоединился «Медицинский журнал» >>>
5 июн 2025 | 09:41 -
НЭИКОН принял участие в конференции НИИ Организации здравоохранения и медицинского менеджмента >>>
30 мая 2025 | 10:32