Модель, учитывающая различительную силу термина

⇐ Предыдущая 123 Следующая ⇒

Частотные модели

Статистические методы назначения весов

Используют частотные параметры терминов t^k в тексте D_i, которые характеризуют частоту встречаемости того или иного слова в том или ином тексте. Эти параметры называют частотами и обозначают f_i^k, где i – обозначение текста, k – обозначение термина. Следует иметь в виду, что методы используют абсолютную частоту терминов, т.е. число их появлений. Данные методы включают частотные модели; модель, учитывающую различительную силу термина, и ее модификацию; модель, использующую динамическую оценку информативности.

В применение частоты для оценки значимости термина вкладывают следующий смысл: чем чаще используется тот или иной термин, тем теснее он связан с семантикой текста. Этот тезис побуждает связать вес w_i^k термина t^k в тексте D_i напрямую с частотой, т.е. w_i^k = f_i^k. Однако этого делать нельзя по двум причинам:

5) бóльшей частотой могут обладать служебные слова типа предлогов, союзов и т.п., которые не связаны с выражением семантики текста;

6) минимальной частотой могут характеризоваться «узкие» термины, которые хорошо отражают семантику текста.

По этим соображениям формула для расчета веса термина приобретает вид:

w_i^k = f_i^k* К,

где К – коэффициент, который рассчитывается по разным зависимостям в соответствии с разновидностью частотных моделей.

Так, модель, использующую текстовую частоту термина, определяет К:

К = IDF^k,

где IDF^k (Inverse Document Frequency) – обратная частота t^k в наборе из n текстов:

IDF^k =,

D^k– текстовая частота - число текстов набора из n, в которых есть t^k.

Модель, учитывающая соотношение «сигнал-шум», рассчитывает К как:

где N^k– шум термина t^k в наборе из n текстов:

- суммарная частота термина t^k в наборе из n текстов,

S^k- сигнал термина t^k в наборе из n текстов:

Модель, учитывающая распределение частоты термина, определяет К по формуле:

где - средняя частота термина t^k в наборе из n текстов:

(V^k)² - среднеквадратическое уклонение термина t^k:

В этой модели «хорошим», т.е. имеющим бóльший вес, считается термин, уменьшающий коэффициент подобия текстов. Вес термина здесь также прямо пропорционален его частоте, однако в расчете коэффициента К учитывается роль термина в усилении или уменьшении подобия текстов, что исключает данный метод из числа частотных.

Введем некоторые понятия:

§ вектор V_i текста D_i: V_i = {(t^k, f_i^k)} или V_i = {(t^k, w_i^k)};

§ коэффициент подобия S(D_i, D_j) текстов D_i и D_j:

где T= |{t^k}| - число индексационных терминов.

Коэффициент подобия принимает значения от 0 до 1: при 0 тексты различны, при 1 – полностью идентичны (по смыслу).

В данной модели К = DV^k

где - различительная сила (Difference Volume) термина t^k:

- среднее значение коэффициента попарного подобия текстов данного набора в присутствии термина t^k:

- то же в отсутствие термина t^k.

Недостатком данной модели является то, что для вычисления средних попарных подобий текстов из набора n текстов требуется n² операций. Модификация этого метода использует понятие пространства текстов и его характеристик - профиля и плотности пространства текстов.

Пространство текстов – множество текстов, каждый из которых характеризуется вектором. Профиль П пространстваиз n текстов – это виртуальный текст, вектор которого V_П определяется как:

V_П = {(t_П^k, f_П^k)},

где {t_п^k} =, т.е.множество {t_п^k} индексационных терминов есть объединение индексационных терминов текстов набора,

, т.е. частоты терминов есть усредненные частоты терминов по текстам набора.

Плотность Q пространства текстов:

где S(П,D_i) – коэффициент подобия профиля и текста D_i:

Чем больше Q, тем больше сходство между текстами набора.

С использованием плотности пространства Q можно по другому определить различительную силу DV^k термина t^k:

DV^k = Q^k – Q,

где Q^k – плотность пространства текстов, когда термин t^k исключен из всех текстов набора n,

Q - плотность пространства текстов в присутствии термина t^k.

⇐ Предыдущая 123 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2014-01-15; Просмотров: 494; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.009 сек.