Поиск в инвертированных файлах

⇐ Предыдущая 1 23

Поиск релевантных текстов

Кластеризация текстов

Динамический метод назначения весов

Вес w_i^kтермина t^k в тексте D_i определяется как:

w_i^k = IV_i^k,

где IV_i^k – информативность (Information Value) термина t^kв тексте D_i, принимает значения от 0 до 2.

Информативность того или иного термина определяется экспериментально, а первоначально всем терминам приписываются одинаковые значения информативности, например, равные 1 (точка на рисунке).

Таким образом, начальными условиями для динамического назначения информативности для каждого t_i^k являются: IV_i^k = 1 и x_i^k = 0. Тогда в случае полезности термина в процессе его использования его информативность увеличивается, а в случае бесполезности – уменьшается, причем указанные изменения имеют синусоидальный характер.

IV IV=1+sin(x)

-p/2 0 p/2 x

Увеличение (+) или уменьшение (-) информативности выполняется по формуле

где,;

c – константа, имеющая смысл: число экспериментов для установления информативности термина.

Таким образом, в результате индексирования набора из n текстов (любым из рассмотренных методов) формируется справочник со структурой:

Термин t^k	Текст D_i
Ф1	Ф2	...	Фn
t¹	w₁¹	w₂¹		w_n¹
t²	w₁²	w₂²		w_n²
...
t^T	w₁^T	w₂^T		w_n^T

Такие справочники характерны для инвертированных файлов.

Для организации хранения кластерных файлов требуется их разбиение на кластеры.

Методы кластеризации основаны на построении полной матрицы подобия текстов заданного пространства, в которой для каждой пары текстов D_i, D_j приводится коэффициент подобия S(D_i,D_j). Затем вводится некоторое пороговое значение коэффициента подобия Ŝ: если S(D_i,D_j)> Ŝ, тексты D_i, D_j включаются в кластер, иначе – не включаются.

Как отмечалось, наиболее употребляемыми на практике являются два способа – инвертированные и кластерные файлы. Рассмотрим, как решается задача поиска релевантных текстов в этих случаях.

Пусть есть пространство текстов размером n, каждый из которых характеризуется вектором V_i = {(t^k; w^k_i)}. Пусть запрос содержит множество ключевых слов (терминов): q = ({t^k_q}). Определим формально текст, релевантный запросу q, как такой текст ТБД, для которого коэффициент подобия с запросом отличен от нуля.

Для расчета коэффициента подобия запроса и текстов ТБД применяются вектора текстов и запроса. Определим вектор запроса V_q:

V_q = {(t^k_q; w^k_q)},

где t^k_q – термин запроса;

w^k_q- вес этого термина.

Тексты D_i характеризуются векторами V_i:

V_i = {(t^k; w^k_i)},

где t^k – термин вектора текста – индексационный термин;

w^k_i - вес этого термина:

Тогда при поиске релевантного текста (текстов) по запросу q рассчитываются коэффициенты подобия запроса и каждого из текстов ТБД:

После определения релевантных текстов возможны два подхода:

1) тексты упорядочиваются по убыванию релевантности, т.е. коэффициента подобия запросу, и предоставляются пользователю в таком упорядоченном виде;

2) вводится пороговый коэффициент подобия Ŝ: пользователю выдаются только те тексты ТБД, для которых подобие с запросом превышает пороговое значение.

⇐ Предыдущая 1 23

Поделиться с друзьями:

Дата добавления: 2014-01-15; Просмотров: 328; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.01 сек.