Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Формальное представление семантики документов

Естественный язык не может быть использован в качестве представления информации из-за следующих недостатков: многообразие передачи смысла, семантическая неоднозначность слов, наличие синонимов, многозначность, пропуск подразумеваемых слов.

Невозможность использования естественных языков для поиска информации привело к созданию информационно-поисковых языков (ИПЯ). Эти языки применяются для смыслового описания текста, с целью последующего поиска. Они строятся на базе естественных языков, но отличаются четкими грамматическими правилами и отсутствием неоднозначностей.

Все языки в ИПС делятся на два класса

· классификационные

· дескрипторные (словарные)

Классификация – система распределения объектов (предметов, явлений, процессов) по классам в соответствии с определенным признаком.

Пример: Всю информацию об университете можно классифицировать по многочисленным информационным объектам, каждый из которых будет характеризоваться своими свойствами (реквизит, атрибут):

· информация о студентах – в виде ИО «Студент»

· информация о преподавателях – в виде ИО «Преподаватель»

· информация о факультетах – в виде ИО «Факультет»

В классификационных языках кроме простых понятий включены сложные (сочетания слов). При этом каждое слово во фразе обозначает класс. Например: «языки. программирования. процедурные. Паскаль.».

Частным случаем таких языков являются рубрикаторы, в которых слова — названия тематических рубрик по уровням иерархии. Такая структура называется классификатором. В нем сложные понятия между собой связаны жесткими связями. Группа связанных классификаторов — систематизаторы.

Классификационные языки содержится в Internet-ИПС (yahoo, au, rambler, …).

Суть дескрипторного метода классификации заключается в следующем:

· отбирается совокупность слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;

· выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;

· создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

Из набора дескрипторов можно строить различные фразы.

Пример 1: В качестве объекта – успеваемость студентов. Ключевые слова: оценка, экзамен, зачет, преподаватель, студент, предмет. Здесь нет синонимов, поэтому данные слова можно использовать как словарь дескрипторов.

Пример 2: В качестве предметной области – учебная деятельность в ВУЗЕ. Ключевые слова: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.

Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации:

· Синонимические (указывают некоторую совокупность ключевых слов как синонимы): студент - обучаемый - учащийся

· Родо-видовые (отражают включение некоторого класса объектов в более представительский класс): университет – факультет – кафедра

· Ассоциативные (соединяют дескрипторы, обладающие общими свойствами): экзамен – профессор – аудитория.

Дескрипторные языки бывают с грамматикой и без грамматики. В языках с грамматикой существуют жесткие правила построения. Например: «действие-субъект-объект». В языках без грамматики порядок слов значения не имеет.

В Internet- ИПС фразы обычно строятся с использованием знаков математической логики. К таким системам относятся Aport, Yandex, Rambler.

OR — ‘V’

AND — ‘+’

ANDNOT — ‘–’

Кроме того, уточнение значений может выполняться с помощью слов, расположенных рядом, а также при помощи неточного задания слов, например: стол* (попадает столовая и т.д.). Слова могут приводиться к нормальной форме.

Уточнением может служить тезаурус (словарь, который содержит одинаковые по смыслу слова).

Примечание. Существует особый тип ИС – экспертные системы, которые мы в нашем курсе не рассматриваем. Экспертная система имитирует поведение эксперта (специалиста) в какой-либо предметной области (например, в биологии), может генерировать новую информацию в этой области и давать разумные советы исследователям. В основе операций экспертной системы – обработка базы знаний (не смешивать с базой данных), составляемой специалистами в данной области.

Указанная классификация ИС в известной мере устарела, так как современные фактографические системы часто работают с неструктурированными блоками информации (текстами, графикой, звуком, видео), снабженными структурированными описателями.

 

<== предыдущая лекция | следующая лекция ==>
Структура ДИПС | Информационные технологии. Каждая ИС (некоторая среда) связана с той или иной технологией, которая определяет совокупность и порядок действий
Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 288; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.