VB, MS Access, VC++, Delphi, Builder C++ принципы(технология), алгоритмы программирования
| Категория реферата: Рефераты по информатике, программированию
| Теги реферата: презентация дипломной работы, отчет по производственной практике
| Добавил(а) на сайт: Памфил.
Предыдущая страница реферата | 35 36 37 38 39 40 41 42 43 44 45 | Следующая страница реферата
Else
Search = i ' Элемент найден.
End If
End Function
Так как этот алгоритм проверяет элементы последовательно, то он находит
элементы в начале списка быстрее, чем элементы, расположенные в конце.
Наихудший случай для этого алгоритма возникает, если элемент находится в
конце списка или вообще не присутствует в нем. В этих случаях, алгоритм
проверяет все элементы в списке, поэтому время его выполнения сложность в
наихудшем случае порядка O(N).
@Рис. 10.1. Программа Search
========266
Если элемент находится в списке, то в среднем алгоритм проверяет N/2
элементов до того, как обнаружит искомый. Таким образом, в усредненном
случае время выполнения алгоритма также порядка O(N).
Хотя алгоритмы, которые выполняются за время порядка O(N), не являются
очень быстрыми, этот алгоритм достаточно прост, чтобы давать на практике
неплохие результаты. Для небольших списков этот алгоритм имеет приемлемую
производительность.
Поиск в упорядоченных списках
Если список упорядочен, то можно слегка модифицировать алгоритм полного
перебора, чтобы немного повысить его производительность. В этом случае, если во время выполнения поиска алгоритм находит элемент со значением, большим, чем значение искомого элемента, то он завершает свою работу. При
этом искомый элемент не находится в списке, так как иначе он бы встретился
раньше.
Например, предположим, что мы ищем значение 12 и дошли до значения 17. При
этом мы уже прошли тот участок списка, в котором мог бы находится элемент
со значением 12, значит, элемент 12 в списке отсутствует. Следующий код
демонстрирует доработанную версию алгоритма поиска полным перебором:
Public Function LinearSearch(target As Long) As Long
Dim i As Long
NumSearches = 0
For i = 1 To NumItems
NumSearches = NumSearches + 1
If List(i) >= target Then Exit For
Next i
If i > NumItems Then
LinearSearch = 0 ' Элемент не найден.
ElseIf List(i) target Then
LinearSearch = 0 ' Элемент не найден.
Else
LinearSearch = i ' Элемент найден.
End If
End Function
Эта модификация уменьшает время выполнения алгоритма, если элемент
отсутствует в списке. Предыдущей версии поиска требовалось проверить весь
список до конца, если искомого элемента в нем не было. Новая версия
остановится, как только обнаружит элемент больший, чем искомый.
Если искомый элемент расположен случайно между наибольшим и наименьшим
элементами в списке, то в среднем алгоритму понадобится порядка O(N) шагов, чтобы определить, что искомый элемент отсутствует в списке. Время
выполнения при этом имеет тот же порядок, но на практике его
производительность будет немного выше. Программа Search использует эту
версию алгоритма.
======267
Поиск в связных списках
Поиск методом полного перебора — это единственный способ поиска в связных
списках. Так как доступ к элементам возможен только при помощи указателей
NextCell на следующий элемент, то необходимо проверить по очереди все
элементы с начала списка, чтобы найти искомый.
Так же, как и в случае поиска полным перебором в массиве, если список
упорядочен, то можно прекратить поиск, если найдется элемент со значением, большим, чем значение искомого элемента.
Public Function LListSearch(target As Long) As SearchCell
Dim cell As SearchCell
NumSearches = 0
Set cell = ListTop.NextCell
Do While Not (cell Is Nothing)
NumSearches = NumSearches + 1
If cell.Value >= target Then Exit Do
Set cell = cell.NextCell
Loop
If Not (cell Is Nothing) Then
If cell.Value = target Then
Set LListSearch = cell ' Элемент найден.
End If
End If
End Function
Программа Search использует этот алгоритм для поиска элементов в связном
списке. Этот алгоритм выполняется немного медленнее, чем алгоритм полного
перебора в массиве из-за дополнительных накладных расходов, которые связаны
с управлением указателями на объекты. Заметьте, что программа Search строит
связные списки, только если список содержит не более 10.000 элементов.
Чтобы алгоритм выполнялся немного быстрее, в него можно внести еще одно
изменение. Если хранить указатель на конец списка, то можно добавить в
конец списка ячейку, которая будет содержать искомый элемент. Этот элемент
называется сигнальной меткой (sentinel), и служит для тех же целей, что и
сигнальные метки, описанные во 2 главе. Это позволяет обрабатывать особый
случай конца списка так же, как и все остальные.
В этом случае, добавление метки в конец списка гарантирует, что в конце
концов искомый элемент будет найден. При этом программа не может выйти за
конец списка, и нет необходимости проверять условие Not (cell Is Nothing) в
каждом цикле While.
Public Function SentinelSearch(target As Long) As SearchCell
Dim cell As SearchCell
Dim sentinel As New SearchCell
NumSearches = 0
' Установить сигнальную метку. sentinel.Value = target
Set ListBottom.NextCell = sentinel
' Найти искомый элемент.
Set cell = ListTop.NextCell
Do While cell.Value < target
NumSearches = NumSearches + 1
Set cell = cell.NextCell
Loop
' Определить найден ли искомый элемент.
If Not ((cell Is sentinel) Or _
(cell.Value target)) _
Then
Set SentinelSearch = cell ' Элемент найден.
End If
' Удалить сигнальную метку.
Set ListBottom.NextCell = Nothing
End Function
Хотя может показаться, что это изменение незначительно, проверка Not (cell
Is Nothing) выполняется в цикле, который вызывается очень часто. Для
больших списков этот цикл вызывается множество раз, и выигрыш времени
суммируется. В Visual Basic, этот версия алгоритма поиска в связных списках
выполняется на 20 процентов быстрее, чем предыдущая версия. В программе
Search приведены обе версии этого алгоритма, и вы можете сравнить их.
Некоторые алгоритмы используют потоки для ускорения поиска в связных
списках. Например, при помощи указателей в ячейках списка можно
организовать список в виде двоичного дерева. Поиск элемента с
использованием этого дерева займет время порядка O(log(N)), если дерево
сбалансировано. Такие структуры данных уже не являются просто списками, поэтому мы не обсуждаем их в этой главе. Чтобы больше узнать о деревьях, обратитесь к 6 и 7 главам
Двоичный поиск
Как уже упоминалось в предыдущих разделах, поиск полным перебором
выполняется очень быстро для небольших списков, но для больших списков
намного быстрее выполняется двоичный поиск. Алгоритм двоичного поиска
(binary search) сравнивает элемент в середине списка с искомым. Если
искомый элемент меньше, чем найденный, то алгоритм продолжает поиск в
первой половине списка, если больше — в правой половине. На рис. 10.2 этот
процесс изображен графически.
Хотя по своей природе этот алгоритм является рекурсивным, его достаточно
просто записать и без применения рекурсии. Так как этот алгоритм прост для
понимания в любом варианте (с рекурсией или без), то мы приводим здесь его
нерекурсивную версию, которая содержит меньше вызовов функций.
Основная заключенная в этом алгоритме идея проста, но детали ее реализации
достаточно сложны. Программе приходится аккуратно отслеживать часть
массива, которая может содержать искомый элемент, иначе она может его
пропустить.
Алгоритм использует две переменные, min и max, в которых находятся
минимальный и максимальный индексы ячеек массива, которые могут содержать
искомый элемент. Во время выполнения алгоритма, индекс искомой ячейки
всегда будет лежать между min и max. Другими словами, min = NumEntries Then
LocateItem = HASH_NOT_FOUND pos = -1
Exit Function
End If
pos = (pos + 1) Mod NumEntries probes = probes + 1
Loop
End Function
Программа Linear демонстрирует открытую адресацию с линейной проверкой.
Заполнив поле Table Size (Размер таблицы) и нажав на кнопку Create table
(Создать таблицу), можно создавать хеш-таблицы различных размеров. Затем
можно ввести значение элемента и нажать на кнопку Add (Добавить) или Find
(Найти), чтобы вставить или найти элемент в таблице.
Чтобы добавить в таблицу сразу несколько случайных значений, введите число
элементов, которые вы хотите добавить и максимальное значение, которое они
могут иметь в области Random Items (Случайные элементы), и затем нажмите на
кнопку Create Items (Создать элементы).
После завершения программой какой-либо операции она выводит статус операции
(успешное или безуспешное завершение) и длину тестовой последовательности.
Она также выводит среднюю длину успешной и безуспешной тестовой
последовательностей. Программа вычисляет среднюю длину тестовой
последовательности, выполняя поиск всех значений от 1 до максимального
значения в таблице.
В табл. 11.1 приведена средняя длина успешных и безуспешных тестовых
последовательностей, полученных в программе Linear для таблицы со 100
ячейками, элементы в которых находятся в диапазоне от 1 до 999. Из таблицы
видно, что производительность алгоритма падает по мере заполнения таблицы.
Является ли производительность приемлемой, зависит от того, как
используется таблица. Если программа тратит большую часть времени на поиск
значений, которые есть в таблице, то производительность может быть
неплохой, даже если таблица практически заполнена. Если же программа часто
ищет значения, которых нет в таблице, то производительность может быть
очень низкой, если таблица переполнена.
Как правило, хеширование обеспечивает приемлемую производительность, не
расходуя при этом слишком много памяти, если заполнено от 50 до 75
процентов таблицы. Если таблица заполнена больше, чем на 75 процентов, то
производительность падает. Если таблица заполнена меньше, чем на 50
процентов, то она занимает больше памяти, чем это необходимо. Это делает
открытую адресацию хорошим примером пространственно-временного компромисса.
Увеличивая хеш-таблицу, можно уменьшить время, необходимое для вставки или
поиска элементов.
=======297
@Таблица 11.1. Длина успешной и безуспешной тестовых последовательностей
Первичная кластеризация
Линейная проверка имеет одно неприятное свойство, которое называется
первичной кластеризацией (primary clustering). После добавления большого
числа элементов в таблицу, возникает конфликт между новыми элементами и уже
имеющимися кластерами, при этом для вставки нового элемента нужно обойти
кластер, чтобы найти пустую ячейку.
Чтобы увидеть, как образуются кластеры, предположим, что вначале имеется
пустая хеш-таблица, которая может содержать N элементов. Если выбрать
случайное число и вставить его в таблицу, то вероятность того, что элемент
займет любую заданную позицию P в таблице, равна 1/N.
При вставке второго случайно выбранного элемента, он может отобразиться на
ту же позицию с вероятностью 1/N. Из-за конфликта в этом случае он
помещается в позицию P + 1. Также существует вероятность 1/N, что элемент и
должен располагаться в позиции P + 1, и вероятность 1/N, что он должен
находиться в позиции P - 1. Во всех этих трех случаях новый элемент
располагается рядом с предыдущим. Таким образом, в целом существует
вероятность 3/N того, что 2 элемента окажутся расположенными вблизи друг от
друга, образуя небольшой кластер.
По мере роста кластера вероятность того, что следующие элементы будут
располагаться вблизи кластера, возрастает. Если в кластере находится два
элемента, то вероятность того, что очередной элемент присоединится к
кластеру, равна 4/N, если в кластере четыре элемента, то эта вероятность
равна 6/N, и так далее.
Что еще хуже, если кластер начинает расти, то его рост продолжается до тех
пор, пока он не столкнется с соседним кластером. Два кластера сливаются, образуя кластер еще большего размера, который растет еще быстрее, сливается
с другими кластерами и образует еще большие кластеры.
======298
В идеальном случае хеш-таблица должна быть наполовину пуста, и элементы в
ней должны чередоваться с пустыми ячейками. Тогда с вероятностью 50
процентов алгоритм сразу же найдет пустую ячейку для нового добавляемого
элемента. Также существует 50-процентная вероятность того, что он найдет
пустую ячейку после проверки всего лишь двух позиций в таблице. Средняя
длина тестовой последовательности равна 0,5 * 1 + 0,5 * 2 = 1,5.
В наихудшем случае все элементы в таблице будут сгруппированы в один
гигантский кластер. При этом все еще есть 50-процентная вероятность того, что алгоритм сразу найдет пустую ячейку, в которую можно поместить новый
элемент. Тем не менее, если алгоритм не найдет пустую ячейку на первом
шаге, то поиск свободной ячейки потребует гораздо больше времени. Если
элемент должен находиться на первой позиции кластера, то алгоритму придется
проверить все элементы в кластере, чтобы найти свободную ячейку. В среднем
для вставки элемента при таком распределении потребуется гораздо больше
времени, чем когда элементы равномерно распределены по таблице.
На практике, степень кластеризации будет находиться между этими двумя
крайними случаями. Вы можете использовать программу Linear для исследования
эффекта кластеризации. Запустите программу и создайте хеш-таблицу со 100
ячейками, а затем добавьте 50 случайных элементов со значениями до 999. Вы
обнаружите, что образовалось несколько кластеров. В одном из тестов 38 из
50 элементов стали частью кластеров. Если добавить еще 25 элементов к
таблице, то большинство элементов будут входить в кластеры. В другом тесте
70 из 75 элементов были сгруппированы в кластеры.
Упорядоченная линейная проверка
При выполнении поиска в упорядоченном списке методом полного перебора, можно остановить поиск, если найдется элемент со значением большим, чем
искомое. Так как при этом возможное положение искомого элемента уже позади, значит искомый элемент отсутствует в списке.
Можно использовать похожую идею при поиске в хеш-таблице. Предположим, что
можно организовать элементы в хеш-таблице таким образом, что значения в
каждой тестовой последовательности находятся в порядке возрастания. Тогда
при выполнении тестовой последовательности во время поиска элемента можно
прекратить поиск, если встретится элемент со значением, большим искомого. В
этом случае позиция, в которой должен был бы находиться искомый элемент, уже осталась позади, и значит элемента нет в таблице.
Public Function LocateItem(Value As Long, pos As Integer, _ probes As Integer) As Integer
Dim new_value As Long
probes = 1 pos = (Value Mod m_NumEntries)
Do new_value = m_HashTable(pos)
' Элемента в таблице нет.
If new_value = UNUSED Or probes > NumEntries Then
LocateItem = HASH_NOT_FOUND pos = -1
Exit Function
End If
' Элемент найден или его нет в таблице.
If new_value >= Value Then Exit Do
pos = (pos + 1) Mod NumEntries probes = probes + 1
Loop
If Value = new_value Then
LocateItem = HASH_FOUND
Else
LocateItem = HASH_NOT_FOUND
End If
End Function
Для того, чтобы этот метод работал, необходимо организовать элементы в хеш-
таблице так, чтобы при выполнении тестовой последовательности они
встречались в возрастающем порядке. Существует достаточно простой метод
вставки элементов, который гарантирует такое расположение элементов.
Когда в таблицу вставляется новый элемент, для него выполняется тестовая
последовательность. Если найдется свободная ячейка, то элемент вставляется
в эту позицию и процедура завершена. Если встречается элемент, значение
которого больше значения нового элемента, то они меняются местами и
продолжается выполнение тестовой последовательности для большего элемента.
При этом может встретиться элемент с еще большим значением. Тогда элементы
снова меняются местами, и выполняется поиск нового местоположения для этого
элемента. Этот процесс продолжается до тех пор, пока, в конце концов, не
найдется свободная ячейка, при этом возможно несколько элементов меняются
местами.
========299-300
Public Function InsertItem(ByVal Value As Long, pos As Integer,_ probes
As Integer) As Integer
Dim new_value As Long
Dim status As Integer
' Проверить, заполнена ли таблица.
If m_NumUnused < 1 Then
' Поиск элемента. status = LocateItem(Value, pos, probes)
If status = HASH_FOUND Then
InsertItem = HASH_FOUND
Рекомендуем скачать другие рефераты по теме: доклад по химии, конспект зима.
Категории:
Предыдущая страница реферата | 35 36 37 38 39 40 41 42 43 44 45 | Следующая страница реферата