Вопросы по информатике
| Категория реферата: Рефераты по информатике, программированию
| Теги реферата: оформление доклада, рассказы
| Добавил(а) на сайт: Berezkin.
Предыдущая страница реферата | 8 9 10 11 12 13 14 15 16 17 18 | Следующая страница реферата
3.Кластеризация вокруг выборочных документов.
Вместо построения матрицы подобия используют плотность пространства некоторых документов. В качестве возможных центров кластера выступают те документы, которые по результатам расчётов оказались расположенными в плотных зонах пространства. Все документы в данном методе делятся на 3 класса:
Документы, уже включённые в кластеры;
Документы, ещё не подвергшиеся исследованию(не включенные в кластеры);
Свободные документы. Те документы, относительно которых делалась попытка включения в кластер, но она закончилась неудачей.
Берём документ, пробуем включить его в кластер. Если не получается, то заносим его в множество свободных документов. Далее из свободного множества пытаемся подключить документы к кластеру.
Вопрос 30(окончание).
Документы, КП которых превышает пороговое значение T3, включаются в состав нового кластера;
Документы, КП которых меньше или равно T3, но больше некоторого порогового значения T4, включаются в множество свободных документов;
Документы, КП которых не больше T4, называются не включенными в кластеры.
Этот процесс повторяется до тех пор, пока все документы не будут отнесены к разряду свободных или не будут включены в какой-либо кластер.
Рассчитывается КП всех свободных документов со всеми центроидами кластеров и там, где подобие окажется максимальным и относят каждый свободный документ.
31.Коррекция кластеров сверху вниз.
В начале строятся один или несколько очень больших кластеров, которые затем разбиваются на более мелкие.
Способы выбора исходных классов:
В качестве центров классов используются случайные документы;
Классом с именем i можно считать множество документов, в векторах которых находится термин i;
В качестве исходных классов принимаются все документы, признанные релевантными некоторому запросу по результатам предыдущих поисковых операций.
Процесс коррекции кластеров:
Вычисляется КП между каждым документом и каждым центроидом кластера;
Кластеры переопределяются путём отнесения документов к тем из них, по отношению к которым, они имеют наибольшее подобие;
Формируются центроиды новых кластеров.
Эти 3 шага выполняются до тех пор, пока:
Будет необходимость в изменениях;
Чтобы процесс не был бесконечным, он выполняется в заданное число итераций.
32.Однократная кластеризация.
Документы рассматриваются в произвольном порядке и каждый документ либо относится к существующему классу, если КП достаточен, либо образует новый кластер.
“+”: каждый документ обрабатывается только 1 раз, => требует мало времени.
Рекомендуем скачать другие рефераты по теме: бесплатные дипломные работы скачать, курсовые работы.
Категории:
Предыдущая страница реферата | 8 9 10 11 12 13 14 15 16 17 18 | Следующая страница реферата