Информационно-поисковые системы на примере Рамблера
| Категория реферата: Рефераты по информатике, программированию
| Теги реферата: первый снег сочинение, мировая экономика
| Добавил(а) на сайт: Galiaskarov.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 | Следующая страница реферата
Точность
Точность - еще одна основная характеристика поисковой машины, которая
определяется как степень соответствия найденных документов запросу
пользователя. Например, если по запросу "Красная площадь" находится 150
документов, в 70 из них содержится словосочетание "Красная площадь", а в
остальных просто присутствуют эти слова ("красная баба кричала на всю
площадь"), то точность поиска считается равной 70/150 (~0,5). Чем точнее
поиск, тем быстрее пользователь находит нужные ему документы, тем меньше
"мусора" среди них встречается, тем реже найденные документы не
соответствуют запросу.
Повышение точности в поисковой машине Рамблер достигается за счет
использования различных технологий на всех этапах обработки и поиска
информации. Одним из наиболее интересных процессов является распознавание
грамматических омонимов. Омонимы - это слова, которые имеют одинаковое
написание, но различный смысл. Различают лексические и грамматические
омонимы. Лексические омонимы относятся к одной части речи, как, например, существительное "бор": хвойный лес, стальное сверло и химический элемент.
Грамматические омонимы относятся к разным частям речи, поэтому по написанию
у них обычно совпадают только отдельные формы. Примерами грамматических
омонимов могут служить слова "печь" - существительное русская "печь" и
глагол "печь" пирожки; "рядовой" - прилагательное "рядовой" сотрудник и
существительное "рядовой" Иванов.
Омонимы не только увеличивают размер индексной базы (так как для
каждого такого слова приходится хранить все его возможные значения), но и
отрицательно сказываются на точности поиска. Если пользователь ищет слово
"данные", ему неинтересно получить в найденном все документы, которые
содержат слово "дать". Для того, чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с
целью установления их наиболее вероятных значений. Например, если рядом со
словом "печь" стоит существительное ("пирожки", "картошка"), то с высокой
вероятностью "печь" в данном контексте является глаголом. На сегодняшний
день анализатор способен распознавать значения только грамматических
омонимов.
Синтаксический анализ позволяет также с определенной вероятностью распознавать некоторые имена собственные. Например, если в тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Петр Петрович, Московский Государственный Университет). Данные о таких конструкциях учитываются при индексации и обработке запроса.
Еще один способ повышения точности поиска - это выделение устойчивых обозначений и поиск их как отдельных лексических единиц. На сегодняшний день в Рамблере реализована система распознавания таких конструкций, например C++, б/у, п/п-к. Если по запросу С++ поднимать все тексты, в которых присутствуют латинская буква С, а также знак +, то получится огромное количество документов, далеко не все из которых соответствуют запросу; кроме того, это большая работа, значительно увеличивающая время поиска.
Огромную роль в повышении точности поиска играет ранжирование.
Пользователь очень редко просматривает больше трех страниц с результатами
поиска. Поэтому субъективно он оценивает точность по "верхним" документам.
Даже если нужный документ найден поисковой машиной, но расположен на
двухсотой позиции, скорее всего, он никогда не будет найден пользователем.
По умолчанию в Рамблере результаты ранжируются по степени соответствия
(релевантности) запросу и группируются по сайтам. При ранжировании
оцениваются различные характеристики текстов, такие как:
. Количество вхождений слов (словосочетаний) в документ - чем больше раз словосочетание "Красная площадь" присутствует в тексте, тем выше вероятность, что в нем действительно говорится о Красной площади;
. Расположение слов запроса в документе - если словосочетание "Красная площадь" присутствует в заголовках или названии документа, то документ с большей вероятностью посвящен Красной площади;
. Формы слов запроса - преимущество отдается вхождениям, в которых слова имеют тот же падеж, число, склонение и т.д., что и в запросе пользователя ("Красная площадь", а не "Красной площадью"). Помимо точного совпадения, выделяются две группы форм слов - близкие и далекие. Близкими считаются изменения по падежам, склонениям, спряжениям, числам и родам. Далекими формами являются причастия, деепричастия и т.п. При ранжировании преимущество отдается близким формам слов запроса.
. Расстояние между словами запроса - если запрос состоит из нескольких слов, то в найденных документах оценивается, насколько близко друг от друга расположены эти слова. Преимущество отдается документам, в которых слова запроса находятся ближе друг к другу, потому что в этом случае они с большей вероятностью связаны между собой. Например, если слово "Красная" расположено в тексте на 5 позиции, а слово "площадь" - на 650, то скорее всего в документе речь идет не о Красной площади.
. Относительная частота (отношение количества вхождений слов запроса в документ к общему количеству слов в документе) - если словосочетание встречается 10 раз в документе из 100 слов, то он скорее соответствует запросу, чем если оно встречается те же 10 раз в документе из 20 тысяч слов;
. Популярность - поисковая машина автоматически вычисляет коэффициент популярности каждой страницы Интернет на основе данных счетчика Top100 и анализа гипертекстовых ссылок между страницами. Преимущество отдается более популярным ресурсам.
. Ссылочный вес документа - при ранжировании учитывается ссылочный вес страницы, рассчитанный на основании учета гиперссылок, содержащих слова запроса. Так, если на некоторый документ словами "Красная площадь" ссылается большое количество страниц с высокими поэффициентами популярности, то ему отдается приоритет по запросу
Красная площадь.
Помимо автоматических способов увеличения точности поиска, существуют
различные средства, с помощью которых пользователь сам может уточнить поиск
по отдельным запросам. В первую очередь к ним относится специальный язык
поискового запроса, используя который можно ограничивать количество
найденных документов. Например, запрос или его часть, взятые в кавычки, обрабатываются буквально, с учетом всех стоп-слов, форм, порядка, знаков
препинания. Это повышает точность поиска, но уменьшает его полноту: если
часть, заключенная в кавычки, неточна, нужный документ найден не будет.
Использование логического оператора OR (ИЛИ) позволяет расширить сферу поиска и увеличить его полноту, в то время как оператор NOT (И-НЕ), наоборот, повышает точность поиска за счет нахождения документов, которые содержат одни слова запроса и не содержат другие. Для повышения точности можно также задавать расстояние между словами. Если в искомом словосочетании порядок слов обычно сохраняется (например, Красная площадь), то в запросе для повышения точности имеет смысл ограничить расстояние, указав его в скобках через запятую: (2, Красная площадь). Это позволит отсеять документы, в которых слова красная и площадь не расположены рядом, а разбросаны по тексту.
Увеличить точность можно с помощью использования поиска в найденном.
Уточняющий поиск, проводится уже не по всей индексной базе, а только по
результатам предыдущего поиска. Таким образом, круг найденных документов
сужается. Например, если дать запрос Красная площадь, а затем, провести
поиск в найденном по запросу Москва, то результат будет содержать только те
документы, в которых говорится о Красной площади города Москвы.
Актуальность
Актуальность - не менее важная характеристика поиска, которая
определяется временем, проходящим с момента публикации документов в сети
Интернет, до занесения их в индексную базу. Например, на следующий день
после теракта в Тушино огромное количество пользователей обратились к
поисковой машине Рамблер с соответствующими запросами. Объективно с момента
публикации новостной информации на эту тему прошло меньше суток. Однако
основные документы уже были заиндексированы и доступны для поиска, благодаря существованию "быстрой базы", которая обновляется два раза в
день, а при необходимости может обновляться быстрее.
На сегодняшний день индексная база поисковой системы Рамблер состоит
из 8 частей, каждая из которых живет своей независимой жизнью. Весь
Интернет условно разделен на 7 секторов и называется своим цветом: красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый. Сайт компании
Рамблер относится к голубому сектору. Информация о web-ресурсах каждого
сектора хранится в соответствующей части индексной базы. Восьмая часть -
"быстрая база" - включает в себя страницы, на которых размещен счетчик Тор
100 и которые еще не успели попасть в основную индексную базу.
Все части индексной базы собираются и обновляются по отдельности. Так, сегодня происходит переиндексация и обновление красного сектора, завтра - оранжевого и желтого, послезавтра - зеленого и т.д. Благодаря такому ступенчатому алгоритму в поисковой машине регулярно появляется свежая информация. Полный цикл обновления занимает около недели. При этом сбор информации происходит параллельно, а непосредственно на изготовление индекса документов одного сектора уходит всего несколько часов. Поэтому существует принципиальная возможность обновлять индексную базу быстрее.
Разделение Интернета на 7 секторов условно. При необходимости он может
быть разбит на 10, 20 или 40 секторов, каждый из которых будет
обрабатываться автономно. В такой системе заложена возможность
значительного увеличения нагрузки. С ростом объема информации в сети
Интернет растет и индексная база поисковой машины. Постепенно
переиндексация и сборка базы начинает занимать все больше времени, а
процесс обновления индекса становится более громоздким. Поступление новых
данных затягивается, информация начинает терять свою актуальность.
Возможность "передела" Интернета на большее число секторов позволяет
удерживать размер каждой части базы в оптимальном диапазоне, контролировать
время ее сборки и обновления.
"Быстрая база" отличается от остальных частей индекса меньшим объемом
и очень оперативным обновлением: время ее построения занимает около двух
часов. В базе содержится информация о страницах, на которых был установлен
счетчик Тор 100. Участниками рейтинга Тор 100 являются новостные порталы, сайты крупных компаний, Интернет-магазины, форумы, - все наиболее
популярные ресурсы в сети. Каждый раз при установке счетчика на новую
страницу сайта, зарегистрированного в Тор 100, информация передается в
поисковую систему. Страница ищется во всех цветах основной базы и, если она
еще не известна поисковой системе, отправляется в очередь на обработку.
Перед обработкой страницы дополнительно фильтруются, из них отбираются
самые посещаемые. Таким образом, "сливки" с Интернета собираются два раза в
день.
"Быстрая база" представляет собой разумное решение проблемы
актуальности данных в поиске. Информационное агентство может выложить
новость через десять минут после ее появления, потому что тратит время
только на верстку страницы. Поисковая машина должна сначала заиндексировать
текст, а на это требуется гораздо больше времени. "Быстрая база" охватывает
все ресурсы Интернет, зарегистрированные в Тор 100, на которых был размещен
счетчик, и которые еще не успели попасть в основную базу. При этом
индексируются как страницы с новостями, так и другие свежие документы, появившиеся в Тор 100. В результате через сутки после теракта в поиске
Рамблера была доступна не только основная информация, опубликованная на
сайтах новостных агентств, которую можно найти и прочитать в разделах
новостей, но и комментарии, высказывания очевидцев, обсуждения на форумах, все, что было к этому времени опубликовано на наиболее посещаемых страницах
Интернета.
Рекомендуем скачать другие рефераты по теме: скачать реферат по истории, скачать шпаргалки по праву.
Категории:
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 | Следующая страница реферата