Стратегия поиска в автоматизированных информационных системах
| Категория реферата: Рефераты по информатике, программированию
| Теги реферата: курсовая работа по психологии, скачать доклад на тему
| Добавил(а) на сайт: Булгаков.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 | Следующая страница реферата
. Естестственно-языковая «дорожка»
. Ответы на «вопросы»
. Поиск в «грязных» (только что отсканированных) текстах
. Голосовой поиск
. Поиск в очень большом корпусе (20GB, 100GB и т.д.)
. WEB корпус (на последних конференциях он представлен выборкой по домену .gov)
. Распределенный поиск и слияние результатов поиска из разных систем
Дополнительные возможности предоставляемые поисковыми машинами
Как видно из «дорожек» TREC, к самому поиску тесно примыкает ряд задач, либо разделяющих с ним общую идеологию (классификация, маршрутизация, фильтрация, аннотирование), либо являющихся неотъемлемой частью поискового процесса (кластеризация результатов, расширение и сужение запросов, обратная связь, «запросо-зависимое» аннотирование, поисковый интерфейс и языки запросов). Нет ни одной поисковой системы, которой бы не приходилось решать на практике хотя бы одну из этих задач.
Зачастую наличие того или иного дополнительного свойства является решающим доводом в конкурентной борьбе поисковых систем. Например, краткие аннотации состоящие из информативных цитат документа, которыми некоторые поисковые системы сопровождают результаты соей работы, помогают им оставаться на полступеньки впереди конкурентов.
Обо всех задачах и способах их решения рассказать невозможно. Для
примера рассмотрим «расширение запроса», которое обычно производится через
привлечение к поиску ассоциированных терминов. Решение этой задачи возможно
в двух видах – локальном (динамическом) и глобальном (статическом).
Локальные техники опираются на текст запроса и анализируют только
документы, найденные по нему. Глобальные же «расширения» могут оперировать
тезаурусами, как априорными (лингвистическими), так и построенными
автоматически по всей коллекции документов. По общепринятому мнению, глобальные модификации запросов через тезаурусы работают неэффективно, понижая точность поиска. Более успешный глобальный подход основан на
построенных вручную статических классификациях, например, ВЕБ-директориях.
Этот подход широко использутся в интернет-поисковиках в операциях сужения
или расширения запроса.
Нередко реализация дополнительных возможностей основана на тех же самых
или очень похожих принципах и моделях, что и сам поиск. Сравните, например, нейросетевую поисковую модель, в которой используется идея передачи
затухающих колебаний от слов к документам и обратно к словам (амплитуда
первого колебания – все тот же TF*IDF), с техникой локального расширения
запроса. Последняя основанна на обратной связи (relevance feedback), в
которой берутся наиболее смыслоразличительные (контрастные) слова из
документов, принадлежащих верхушке списка найденного.
К сожалению, локальные методы расширения запроса, несмотря на эффектные
технические идеи типа «Term Vector Database» и очевидную пользу, все еще
остаются крайне дорогими.
Лингвистика
Немного в стороне от статистических моделей и структур данных стоит
класс алгоритмов, традиционно относимых к лингвистическим. Точно границы
между статистическим и лингвистическими методами провести трудно. Условно
можно считать лингвистическими методы, опирающиеся на словари
(морфологические, синтаксические, семантические), созданные человеком. Хотя
считается доказанным, что для некоторых языков лингвистические алгоритмы не
вносят существенного прироста точности и полноты (например, английский), все же основная масса языков требует хотя бы минимального уровня
лингвистической обработки. Приведу только список задач, решаемый
лингвистическими или окололингвистическими приемами:
. автоматическое определение языка документа
. токенизация (графематический анализ): выделение слов, границ предложений
. исключение неинформативных слов (стоп-слов)
. лемматизация (нормализация, стемминг): приведение словоизменительных форм к «словарной». В том числе и для слов, не входящих в словарь системы
. разделение сложных слов (компаундов) для некоторых языков (например, немецкого)
. дизамбигуация: полное или частичное снятие омонимии
. выделение именных групп
Еще реже в исследованиях и на практике можно встретить алгоритмы словообразовательного, синтаксического и даже семантического анализа. При этом под семантическим анализом чаще подразумевают какой-нибудь статистический алгоритм (LSI, нейронные сети), а если толково-комбинаторные или семантические словари и используются, то в крайне узких предметных областях.
Заключение
Прежде всего, очевидно, что поиск в большом информационном массиве, не может быть сколько-нибудь корректно выполнен, будучи основан на анализе одного лишь текста документа. Ведь внетекстовые (off-page) факторы играют порой и большую роль, чем текст самой страницы. Положение на сайте, посещаемость, авторитетность источника, частота обновления, цитируемость страницы и ее авторов – все эти факторы играют важную роль.
Cтав основным источником получения справочной информации для человека, поисковые системы стали основным источником трафика для интернет -сайтов.
Как следствие, они немедленно подверглись «атакам» недобросовестных
авторов, желающих оказаться в первых страницах результатов поиска.
Искусственная генерация входных страниц, насыщенных популярными словами, техника клоакинга, «слепого текста» и многие другие приемы, предназначенные
для обмана поисковых систем.
Рекомендуем скачать другие рефераты по теме: антикризисное управление предприятием, реферат на тему образование.
Категории:
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 | Следующая страница реферата