Вопросы по информатике
| Категория реферата: Рефераты по информатике, программированию
| Теги реферата: бесплатные рассказы, философские рефераты
| Добавил(а) на сайт: Мусорин.
Предыдущая страница реферата | 17 18 19 20 21 22 23 24 25 26 27 | Следующая страница реферата
Матрица: S(Di , Dj) – диагональная квадратная и симметричная.
i = 1,N ; j = 1,N.
Пусть задано множество пар:
VDi = {(ti , wi)}
VDj = {(tj , wj)}
Коэффициент подобия документов определяется:
S(Di , Dj) = сумм(k =1,N)rk/N
r – отношение; N – мощность множества документов.
0, wi = 0 или wj = 0
rk = wi / wj в противном случае
Чтобы задача решалась адекватно, вектора (*) должны быть упорядочены по терминам, т.е. одни и те же термины должны быть записаны в одних и тех же позициях этих векторов. Исходная матрица, которая получена в результате расчётов, преобразуется в бинарную следующим образом: вводится некоторое пороговое значение T коэффициента подобия, и те коэффициенты, которые меньше его заменяются на 0, в противном случае на 1:
S(Di , Dj) < T , => 0
S(Di , Dj) > T , => 1
2.Метод одной связи.
Здесь классы представляются документами, между которыми установлены отношения подобия, которые подчиняются следующему требованию: между двумя документами устанавливается связь при выполнении одного из следующих условий: существуют Di , Dj,
S(Di , Dk) , S(Dk , Dj);
S(Di , Dk) , S(Dk , Dm) , S(Dm , Dj);
Самое сильное требование: S(Di , Dk) – если в матрице подобия уже существует подобие.
Если одно из условий выполняется, то документы в одном классе.
3.Кластеризация вокруг выборочных документов.
Вместо построения матрицы подобия используют плотность пространства некоторых документов. В качестве возможных центров кластера выступают те документы, которые по результатам расчётов оказались расположенными в плотных зонах пространства. Все документы в данном методе делятся на 3 класса:
Документы, уже включённые в кластеры;
Документы, ещё не подвергшиеся исследованию(не включенные в кластеры);
Свободные документы. Те документы, относительно которых делалась попытка включения в кластер, но она закончилась неудачей.
Берём документ, пробуем включить его в кластер. Если не получается, то заносим его в множество свободных документов. Далее из свободного множества пытаемся подключить документы к кластеру.
Вопрос 30(окончание).
Документы, КП которых превышает пороговое значение T3, включаются в состав нового кластера;
Документы, КП которых меньше или равно T3, но больше некоторого порогового значения T4, включаются в множество свободных документов;
Документы, КП которых не больше T4, называются не включенными в кластеры.
Этот процесс повторяется до тех пор, пока все документы не будут отнесены к разряду свободных или не будут включены в какой-либо кластер.
Рассчитывается КП всех свободных документов со всеми центроидами кластеров и там, где подобие окажется максимальным и относят каждый свободный документ.
31.Коррекция кластеров сверху вниз.
В начале строятся один или несколько очень больших кластеров, которые затем разбиваются на более мелкие.
Способы выбора исходных классов:
В качестве центров классов используются случайные документы;
Классом с именем i можно считать множество документов, в векторах которых находится термин i;
В качестве исходных классов принимаются все документы, признанные релевантными некоторому запросу по результатам предыдущих поисковых операций.
Процесс коррекции кластеров:
Вычисляется КП между каждым документом и каждым центроидом кластера;
Кластеры переопределяются путём отнесения документов к тем из них, по отношению к которым, они имеют наибольшее подобие;
Формируются центроиды новых кластеров.
Эти 3 шага выполняются до тех пор, пока:
Будет необходимость в изменениях;
Чтобы процесс не был бесконечным, он выполняется в заданное число итераций.
32.Однократная кластеризация.
Документы рассматриваются в произвольном порядке и каждый документ либо относится к существующему классу, если КП достаточен, либо образует новый кластер.
“+”: каждый документ обрабатывается только 1 раз, => требует мало времени.
“-”: состав и структура классов существенно зависит от порядка рассмотрения документов.
33.Основные критерии хорошего диалога.
Естественность;
Последовательность;
Краткость;
Поддержка пользователя;
Рекомендуем скачать другие рефераты по теме: сочинения по русскому языку, управление персоналом реферат.
Категории:
Предыдущая страница реферата | 17 18 19 20 21 22 23 24 25 26 27 | Следующая страница реферата