Энтропийная мера

Основная гипотеза данного подхода заключается в следующем: наилучшая энтропия кластерного разбиения достигается тогда, когда каждый кластер содержит всего один объект.
Сначала для каждого кластера j считается pij – вероятность того, что член кластера j принадлежит некоему классу i из заранее составленного экспертами распределения классов. Энтропия каждого кластера считается в соответствии с классической формулой:
, (26)
то есть сумма производится по всем предопределенным классам.
Полная энтропия набора кластеров вычисляется, как сумма энтропий кластеров, с учетом размеров кластеров [3]:
, (27)
где nj – размер кластера j, m – количество кластеров, n – общее количество точек пространства.

F-мера
Эта мера объединяет в себе понятия точности и полноты, взятые из теории информационного поиска. Точность (precision) – это доля истинно релевантных (удовлетворяющих запросу) документов в общем числе найденных, и полнота (recall) – доля обнаруженных истинно релевантных документов [2].
Таким образом, можно считать каждый кластер результатом запроса, а каждый предопределенный экспертом класс документов – желаемым результатом запроса, то есть наилучшим по параметрам набором документов, возвращаемых в ответ на запрос. Далее мы подсчитываем значения полноты и точности этого кластера для каждого класса:
, (28)
, (29)
где j – кластер, i – класс, nij – количество членов класса i в кластере j, nj – количество членов кластера j и ni – количество членов класса i.
F-мера для кластера j и класса i затем задается, как [3]:
. (30)
Для всего кластерного разбиения в случае иерархической кластеризации F-мера равна:
, (31)
где максимум берется от всех кластеров на всех уровнях, n – количество документов.

Дополнительная информация из Википедии по теме: Энтропийная мера

Теория информации
Binaryerasurechannel.png
  • Энтропия
  • Дифференциальная энтропия
  • Условная энтропия
  • Совместная энтропия
  • Взаимная информация
  • Условная взаимная информация
  • Относительная энтропия
  • Энтропийная скорость
  • Свойство асимптотической равнораспределенности
  • Теория частотных искажений
  • Теорема Шеннона об источнике шифрования
  • Пропускная способность
  • Теоремы Шеннона для канала с шумами
  • Теорема Шеннона — Хартли

Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера ( англ. Kullback–Leibler divergence), РКЛ, информационное расхождение, различающая информация, информационный выигрыш, относительная энтропия ( англ. relative entropy) — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух вероятностных распределений, определённых на общем пространстве элементарных событий. Часто применяется в теории информации и математической статистике.

Смотри полный текст на Wikipedia

Обсуждение темы

Ваш e-mail не будет опубликован. Обязательные поля помечены *