Построение словаря синонимов

Методы расширенного поиска

Поиск при кластерной организации хранения

Пусть пространство текстов разбито на множество кластеров {C_l}, каждый из которых есть своё подпространство размером n_l текстов исходного пространства размером n текстов. При этом каждый кластер характеризуется профилем П_l и вектором V_l вида:

V_l = {(t_l^k, f_l^k)},

где {t_l^k} =, т.е. множество {t_l^k} индексационных терминов есть объединение индексационных терминов текстов кластера С_l,

, т.е. частоты терминов есть усредненные частоты терминов по текстам кластера.

Рассчитываются коэффициенты подобия S(q, C_l) запроса и кластера, представленного своим вектором:

где w_l^k – вес термина t^k в профиле кластера C_l;

Т_l – число индексационных терминов в профиле кластера С_l.

После определения релевантного кластера (его подобие с запросом отлично от нуля) поиск релевантного текста (текстов) выполняется внутри кластера.

Часто при поиске в ТБД необходимо увеличить число релевантных текстов (в поисковых системах Интернет это называется расширенным поиском). Пространство релевантности увеличивается за счет дополнительных совпадений терминов запроса и индексационных терминов.

Для увеличения числа совпадений используются методы:

1) применение словаря синонимов (тезауруса), в котором термины сгруппированы в классы синонимии, или эквивалентности. Для построения тезауруса используют методы кластеризации элементов, в которых в качестве элементов выступают индексационные термины;

2) исключение из рассмотрения префиксной и постфиксной частей терминов и выделение их основ путем проведения морфологического анализа;

3) использование ассоциативного индексирования для приписывания терминам дополнительных терминов, которые ассоциируются с исходными;

4) вероятностное индексирование.

Смысл этого метода сводится к тому, что с каждым термином t^kсвязывается множество его синонимов Syn^k. Образуется тезаурус. Тогда вектор запроса пополняется терминами из тезауруса, что расширяет число текстов, релевантных запросу.

Связь термина t^k с множеством Syn^k может быть представлена дополнительной графой справочника, в которой множество синонимов задано либо явно, либо списком номеров синонимичных терминов из того же справочника, например:

Термин t^k	Синонимы Syn^k	Текст
Ф1	Ф2	Ф3	Ф4
К1	К4	w_Ф1^К1	w_Ф2^К1	w_Ф3^К1	w_Ф4^К1
К2	-	w_Ф1^К2	w_Ф2^К2	w_Ф3^К2	w_Ф4^К2
К3	-	w_Ф1^К3	w_Ф2^К3	w_Ф3^К3	w_Ф4^К3
К4	К1	w_Ф1^К4	w_Ф2^К4	w_Ф3^К4	w_Ф4^К4

Тогда, например, если в запросе участвует термин К1, а его синонимом является термин К4, то запросу релевантны тексты, характеризующиеся как термином К1, т.е. Ф1, так и К4, т.е. Ф4.

При формировании тезауруса применяются рассмотренные выше для текстов методы кластеризации. Для этого каждый термин t^k представляется вектором V^k вида:

V^k = {(D_i, f_i^k)} или V^k = {(D_i, w_i^k)}.

Тогда для терминов t^k и t^r коэффициент подобия S(t^k,t^r) рассчитывается по формуле:

где p_i^r – параметр (частота или вес), характеризующий термин t^r в тексте D_i,

n – число текстов в наборе.

<== предыдущая лекция	\|	следующая лекция ==>
Поиск в инвертированных файлах	\|	Типы диалогов

Поделиться с друзьями:

Дата добавления: 2014-01-15; Просмотров: 571; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.012 сек.