Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Анализ информации и построение словарей

Состав и структура дескрипторных ИПЯ.

В соответствии с принципом чистой координации документа выдается на запрос в том случае, если их поисковые образы имеют не менее общих ключевых слов.

Дескрипторные ИПЯ

В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов, т.е. списком наиболее существенных для понимания текста названных полнозначных слов. Полнозначные слова – существительные, прилагательные, глаголы, наречия, числительные, местоимения. Неполнозначные слова – предлоги, союзы, частицы, связки.

Принцип чистого координатного индексирования и поиска состоит в индексировании документов и запросов списками ключевых слов, являющихся ПОДами и ПОЗами, и в последующем сравнении полученных списков.

 

Списать! =)

 

 

Рисунок

 

04.05.

Рассмотрим запрос, поисковый образ которого есть

 

Документ отвечает на запрос (релевантен), если

 

Подмножество релевантно запросу, если

 

 

При использовании чистой координации при поиске могут возникнуть следующие нежелательные ситуации:

1. Ложная координация (в массиве, выданном на запрос, может быть документ, который не отвечает запросу)

2. Неполная координация (выдача документа, несоответствующего запросу)

3. Синонимия ключевых слов (выдача отсутствует, хотя необходимо было выдать документ, содержащий синоним искомого термина)

4. Полисемия (выдача ненужных документов)

5. Необозначенность родо-видовых (парадигматических) связей (выдача отсутствует, хотя необходимо было выдать документ, содержащий родо-видовую связь с искомым термином)

6. Ложные синтагматические связ и (выдача документа, не отвечающего запросу)

7. Невыдача документов, близких по смыслу запросу (большое значение K)

Для ликвидации указанных недостатков необходимы:

1. Устранение синонимии, полисемии, омонимии

2. Учет парадигматических связей

3. Учет синтагматических связей

 

Основными элементами ДИПЯ являются:

1. Словарь лексических единиц (ЛЕ), обеспечивающий выделение определенных частей текста и их замену на коды лексических единиц

2. Правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документа запросов (слов и словосочетаний – морфология; фраз, текстов в целом – синтаксис) с естественного языка на ИПЯ.

3. Правила построения и ведения ИПЯ, определяющие процедуру изменения и совершенствования ИПЯ, т.е. его словаря и правил применения.

 

Задача построения словарей состоит в следующем: по заданному классу текстов необходимо выбрать попарно-различимые лексические единицы (словоформы, основы слов, КС, дескрипторы и т.д.), определить их морфологические, синтаксические и семантические характеристики и расположить в заранее обусловленном порядке.

Существует три способа построения словарей: априорный, апостериорный, динамический.

 

Априорный. Лексические единицы выделяются из различных терминологических источников (справочников, энциклопедий, словарей, классификаторов и т.д.) по заданной тематике). После отбора лексики проводят ее семантическую обработку и строят словари.

Апостериорный. Лексика формируется из представительной выработки будущего фонда документов. Далее проводят ее семантическую обработку и строят словари.

Динамический способ. Процессы накопления лексики, ее семантическая обработка и построение словарей совмещены с процессом эксплуатации ИПС.

 

<== предыдущая лекция | следующая лекция ==>
 | Какова должна быть детальность словаря?
Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 1175; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.