Общая задача информационного поиска в Интернет заключается в том, чтобы найти релевантные (релевантность – мера соответствия) запросу документы, а еще точнее, соответствующие истинной потребности пользователя.
Каждая поисковая система Интернет имеет свой алгоритм определения релевантных документов и ранжирования их выдачи пользователю.
Поисковая система Nigma.ru использует метод кластеризации полученных документов. И отличительная особенность данной поисковой системы - это поиск с разделение документов по классам и другими особенностями, облегчающими поиск. Система выдаёт не просто список результатов поиска, и группирует результат на кластеры. Каждый кластер - это группа сайтов, относящихся, по мнению поисковой системы, к общей тематике. При таком подходе гораздо легче разобраться с результатом поиска.
На основе введенного пользовательского запроса система формирует список документов, разделенных на несколько классов с аннотацией каждого класса и самого документа. Для улучшения качества кластеризации документов используются различные web-сервисы: корпус русского языка - набор обучающих текстов, системы лескико-семантического анализа текста. Сайты вносятся в кластеры не только по близлежащим словам, но и по синонимам и типам.
Достоинства метода:
- высокая скорость работы. По времени и занимаемой памяти дерево строится пропорционально количеству документов. Наихудшая теоретическая верхняя граница времени построения - пропорционально квадрату количества документов;
- хорошая наглядность представления результатов.
Недостатки метода:
- важен порядок слов в документе для определения названий кластеров, состоящих из нескольких слов
Новая система обладает также возможностью исключать заведомо нерелевантные с точки зрения пользователя группы сайтов.
Система разработана научным коллективом, состоящим из студентов и аспирантов факультетов ВМиК и психологии МГУ им. М. В. Ломоносова. Системе немногим менее 2-х лет, но она имеет собственный индекс размером 1 терабайт. В механизме индексации применяются различные технологии, включая удаление дублирующейся информации во время исполнения запроса.