О КОМПАНИИ|МИССИЯ КОМПАНИИ|ПРИНЦИПЫ И ТЕХНОЛОГИИ|ПОРТФОЛИО|КОНТАКТЫ

        Расширенный поиск
                  Статьи     Энциклопедия     Новости     История     Ресурсы

Информация > Интернет > Сервисы Интернет

А Б В Г Д З И К Л М Н О П Р С Т Ф Ц Ч Ш Э Я     A B C E F G H I J L M N P Q S W X Y     Все  

Nigma.ru - новая поисковая система Интернет

Общая задача информационного поиска в Интернет заключается в том, чтобы найти релевантные (релевантность – мера соответствия) запросу документы, а еще точнее, соответствующие истинной потребности пользователя. 

Каждая поисковая система Интернет имеет свой алгоритм определения релевантных документов и ранжирования их выдачи пользователю. 

Поисковая система Nigma.ru использует метод кластеризации полученных документов. И отличительная особенность данной поисковой системы - это поиск с разделение документов по классам и другими особенностями, облегчающими поиск. Система выдаёт не просто список результатов поиска, и группирует результат на кластеры. Каждый кластер - это группа сайтов, относящихся, по мнению поисковой системы, к общей тематике. При таком подходе гораздо легче разобраться с результатом поиска.

На основе введенного пользовательского запроса система формирует список документов, разделенных на несколько классов с аннотацией каждого класса и самого документа. Для улучшения качества кластеризации документов используются различные web-сервисы: корпус русского языка - набор обучающих текстов, системы лескико-семантического анализа текста. Сайты вносятся в кластеры не только по близлежащим словам, но и по синонимам и типам.

Достоинства метода:

  • высокая скорость работы. По времени и занимаемой памяти дерево строится пропорционально количеству документов. Наихудшая теоретическая верхняя граница времени построения - пропорционально квадрату количества документов;
  • хорошая наглядность представления результатов.

Недостатки метода:

  • важен порядок слов в документе для определения названий кластеров, состоящих из нескольких слов

Новая система обладает также возможностью исключать заведомо нерелевантные с точки зрения пользователя группы сайтов.

Система разработана научным коллективом, состоящим из студентов и аспирантов факультетов ВМиК и психологии МГУ им. М. В. Ломоносова. Системе немногим менее 2-х лет, но она имеет собственный индекс размером 1 терабайт. В механизме индексации применяются различные технологии, включая удаление дублирующейся информации во время исполнения запроса.



05.01.2007

Перейти на Форум "Эффективное управление предприятием"


__________________
Версия для печати




ДРУГИЕ МАТЕРИАЛЫ ПО ТЕМЕ

Последние новости   Архив



Энциклопедия

Сервисы Интернета

Часто понимают, что Интернет это то множество сайтов, которые мы видим во всемирной паутине WWW (World Wide Web), однако она сама является одним из ...читать статью


Статьи

Бесплатные звонки с компьютера на телефон через Интернет. IP телефония.


История

Компания Google: история и нынешнее положение дел. Справка

Google Inc. - американская компания, владеющая первой по популярности в мире поисковой системой Google. По данным компании Net Applications, в ...читать статью


Ресурсы

Интернет как новая социально-экологическая среда: трансформация процессов коммуникации

Обращаясь к вопросу о возникновении новой социально-экологической среды с появлением Интернета, стоит упомянуть предпосылки обоснования этого перейти

Сайт о корпоративных сайтах и интернет-системах

???????@Mail.ru     © 1997—2008 CopSite.ru     © 1997—2020 CopSite.ru