Проблеми використання роботів /Укр./
| Категория реферата: Топики по английскому языку
| Теги реферата: капитанская дочка сочинение, изложение 8 класс по русскому
| Добавил(а) на сайт: Ferapont.
Предыдущая страница реферата | 1 2 3
Robot Community спробувало змінити цю ситуацію, створивши спеціальний стандарт "A standard for robot exclusion". Цей стандарт описує використання простого структурованого текстового файлу, щоб задати, які частини даного серверу не потрібно оглядати роботам. Цю можливість можна також використовувати, аби повідомити робота про чорні дірки, коли заглиблюючись у все глибші сторінки робот не може з них повернутися. Кожному роботу можна давати особливі інструкції, бо кожен з них спеціалізується в певній окремій галузі. Цей стандарт не загальноприйнятий, але вважається, що кожен робот повинен його дотримуватися.
Визначити порядок обходу сайтів це велика проблема. Більшість сайтів організовані ієрархічно, тому обхід в ширину, з вершини до заданої глибини, дає більший набір документів, ніж обхід в глибину. Проте обхід в глибину швидше віднайде сторінки користувачів, в яких є посилання на інші сторінки, і тому швидше знайде нові сайти для обходу.
# /robots.txt for http://www.site.com/ User-agent: * # attention all robots: Disallow: /cyberworld/map # infinite URL space Disallow: /tmp/ # temporary files |
Приклад файлу robots.txt
Статистичний аналізДуже складно проіндексувати звичайний веб-документ. Перші роботи просто зберігали назви документів та тексти посилань, але сучасні роботи використовують більш складні механізми, і як правило аналізують весь зміст документу.
Ці методи можна автоматично застосовувати для всіх документів, але вони не можуть бути настільки ефективні, як ручне індексування автором. HTML дає можливість додати метаінформацію до документів, яка спрощує роботу пошук по документу.
ЕтикаЗрозуміло, що роботи дуже корисні, але вони накладають високі вимоги на трафік і спричинюють багато проблем. Тому автори роботів мусять обирати золоту середину між користю та шкодою, коли створюють та випускають робота. І тут є етична проблема: "Чи шкоду від роботів можна виправдати їх корисністю". Люди мають різні думки щодо цього.
Деякі з проблем стали очевидними лише тоді, коли роботи збільшили вдвічі завантаження серверів. Мартин Костер виробив набір правил для авторів роботів, дотримуючись яких, можна мінімізувати шкоду від роботів:
подумайте, чи насправді вам потрібен новий робот;
зробіть так, щоб адміністратори серверів могли легко ідентифікувати робота та при необхідності зв‘язатися з автором;
ретельно протестуйте робота локально;
керуйте використанням ресурсів, не допускайте кількох послідовних скачувань з одного серверу та не допускайте непотрібних скачувань;
дотримуйтесь стандарту "for Robot Exclusion";
регулярно переглядайте log файли робота;
діліться результатами своєї роботи з іншими.
Девід Ейхмант розділяє роботів, які створюють загальнодоступні інформаційні бази, та роботів для користувачів, результат роботи яких, використовується лише однією людиною.
Той факт, що більшість авторів роботів використовують поради Мартина Костера показує, що вони свідомо ставляться до можливих проблем, та намагаються мінімізувати будь-який негативний вплив.
Альтернативи для пошуку ресурсівІснує альтернативний підхід до пошуку ресурсів, коли сумарна індексна інформація про сервер вже зібрана на ньому. Це інформація лише про локальні ресурси. Вона може бути створена вручну, а може автоматично з заголовків, або тегів META. Ця інформація додається до пошукової бази даних за допомогою звичайних WWW протоколів. Це не робот, тому що він не отримує рекурсивно документи які є в цьому індексі.
У цього способу є переваги. Якість індексу, створеного людьми, поєднується з ефективністю автоматичного оновлення. Цілісність інформації у цього способу вище, ніж у звичайних індексів, тому, що підтримувати потрібно тільки локальну індексну інформацію. Дуже низькі вимоги до мережі, індексна інформація менша ніж весь сайт і отримується тільки один раз.
Є також декілька недоліків. Ручна підтримка індексної інформації може дати додаткові проблеми провайдеру інформації, але практично, індексна інформація для основних документів змінюється не часто. Іншим обмеженням є те, що інформаційні провайдери мусять записувати інформацію у заданому індексному форматі, що обмежує використання додаткових можливостей. На кінець, оновлення індексу є не дуже ефективними, бо увесь індексний файл треба прочитати заново, навіть якщо змінився лише один запис.
Така система, як описано вище, - ALIWEB вже працює з жовтня 1993 і дає не погані результати. Але подальший розвиток йде повільно, тому що це персональний проект, над яким працюють у вільний час, і який не отримує капіталовкладень.
Harvest — це інша система пошуку інформації, що була недавно випущена IRTF-RD, що пропонує програмні системи для автоматичного індексування змісту документів, ефективної реплікації та кешування такої індексної інформації на віддалених хостах, і на кінець пошук цієї інформації через інтерфейс у WWW. Реакції на цю систему були дуже позитивними.
ВисновокРоботи є дуже корисними та перспективними програмами для Інтернет, але при їх написанні потрібно враховувати, що вони можуть суттєво зменшити трафік для інших користувачів. Щоб цього не сталося, при написанні роботів потрібно користуватися методологією Мартіна Костера та підтримувати "Standard for Robot Exclusion".
Література1. Martijn Koster, "A Standard for Robot Exclusion," Nexor Corp., http://web.nexor.co.uk/mak/doc/robots/norobots.html.
2. Martijn Koster, "Robots in the Web: threat or treat?", NEXOR
3. David Eichmann, "Ethical Web Agents"
Скачали данный реферат: Макарий, Черенчиков, Меркурия, Набатников, Jadviga, Фотий, Случевский, Пайков.
Последние просмотренные рефераты на тему: контрольная, реферат по физкультуре, рефераты дипломы курсовые, доклад по обж.
Категории:
Предыдущая страница реферата | 1 2 3