Nigma.ru - новая поисковая система Интернет Энциклопедия

Общая задача информационного поиска в Интернет заключается в том, чтобы найти релевантные (релевантность – мера соответствия) запросу документы, а еще точнее, соответствующие истинной потребности пользователя.

Каждая поисковая система Интернет имеет свой алгоритм определения релевантных документов и ранжирования их выдачи пользователю.

Поисковая система Nigma.ru использует метод кластеризации полученных документов. И отличительная особенность данной поисковой системы - это поиск с разделение документов по классам и другими особенностями, облегчающими поиск. Система выдаёт не просто список результатов поиска, и группирует результат на кластеры. Каждый кластер - это группа сайтов, относящихся, по мнению поисковой системы, к общей тематике. При таком подходе гораздо легче разобраться с результатом поиска.

На основе введенного пользовательского запроса система формирует список документов, разделенных на несколько классов с аннотацией каждого класса и самого документа. Для улучшения качества кластеризации документов используются различные web-сервисы: корпус русского языка - набор обучающих текстов, системы лескико-семантического анализа текста. Сайты вносятся в кластеры не только по близлежащим словам, но и по синонимам и типам.

Достоинства метода:

высокая скорость работы. По времени и занимаемой памяти дерево строится пропорционально количеству документов. Наихудшая теоретическая верхняя граница времени построения - пропорционально квадрату количества документов;
хорошая наглядность представления результатов.

Недостатки метода:

важен порядок слов в документе для определения названий кластеров, состоящих из нескольких слов

Новая система обладает также возможностью исключать заведомо нерелевантные с точки зрения пользователя группы сайтов.

Система разработана научным коллективом, состоящим из студентов и аспирантов факультетов ВМиК и психологии МГУ им. М. В. Ломоносова. Системе немногим менее 2-х лет, но она имеет собственный индекс размером 1 терабайт. В механизме индексации применяются различные технологии, включая удаление дублирующейся информации во время исполнения запроса.

Информация > Интернет > Сервисы Интернет

Nigma.ru - новая поисковая система Интернет

Перейти на Форум "Эффективное управление предприятием"

ДРУГИЕ МАТЕРИАЛЫ ПО ТЕМЕ