Естественный язык не может быть использован в качестве представления информации из-за следующих недостатков: многообразие передачи смысла, семантическая неоднозначность слов, наличие синонимов, многозначность, пропуск подразумеваемых слов.
Невозможность использования естественных языков для поиска информации привело к созданию информационно-поисковых языков (ИПЯ). Эти языки применяются для смыслового описания текста, с целью последующего поиска. Они строятся на базе естественных языков, но отличаются четкими грамматическими правилами и отсутствием неоднозначностей.
Все языки в ИПС делятся на два класса
· классификационные
· дескрипторные (словарные)
Классификация – система распределения объектов (предметов, явлений, процессов) по классам в соответствии с определенным признаком.
Пример: Всю информацию об университете можно классифицировать по многочисленным информационным объектам, каждый из которых будет характеризоваться своими свойствами (реквизит, атрибут):
· информация о студентах – в виде ИО «Студент»
· информация о преподавателях – в виде ИО «Преподаватель»
· информация о факультетах – в виде ИО «Факультет»
В классификационных языках кроме простых понятий включены сложные (сочетания слов). При этом каждое слово во фразе обозначает класс. Например: «языки. программирования. процедурные. Паскаль.».
Частным случаем таких языков являются рубрикаторы, в которых слова — названия тематических рубрик по уровням иерархии. Такая структура называется классификатором. В нем сложные понятия между собой связаны жесткими связями. Группа связанных классификаторов — систематизаторы.
Классификационные языки содержится в Internet-ИПС (yahoo, au, rambler, …).
Суть дескрипторного метода классификации заключается в следующем:
· отбирается совокупность слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
· выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
· создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Из набора дескрипторов можно строить различные фразы.
Пример 1: В качестве объекта – успеваемость студентов. Ключевые слова: оценка, экзамен, зачет, преподаватель, студент, предмет. Здесь нет синонимов, поэтому данные слова можно использовать как словарь дескрипторов.
Пример 2: В качестве предметной области – учебная деятельность в ВУЗЕ. Ключевые слова: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации:
· Синонимические (указывают некоторую совокупность ключевых слов как синонимы): студент - обучаемый - учащийся
· Родо-видовые (отражают включение некоторого класса объектов в более представительский класс): университет – факультет – кафедра
Дескрипторные языки бывают с грамматикой и без грамматики. В языках с грамматикой существуют жесткие правила построения. Например: «действие-субъект-объект». В языках без грамматики порядок слов значения не имеет.
В Internet- ИПС фразы обычно строятся с использованием знаков математической логики. К таким системам относятся Aport, Yandex, Rambler.
OR — ‘V’
AND — ‘+’
ANDNOT — ‘–’
Кроме того, уточнение значений может выполняться с помощью слов, расположенных рядом, а также при помощи неточного задания слов, например: стол* (попадает столовая и т.д.). Слова могут приводиться к нормальной форме.
Уточнением может служить тезаурус (словарь, который содержит одинаковые по смыслу слова).
Примечание. Существует особый тип ИС – экспертные системы, которые мы в нашем курсе не рассматриваем. Экспертная система имитирует поведение эксперта (специалиста) в какой-либо предметной области (например, в биологии), может генерировать новую информацию в этой области и давать разумные советы исследователям. В основе операций экспертной системы – обработка базы знаний(не смешивать с базой данных), составляемой специалистами в данной области.
Указанная классификация ИС в известной мере устарела, так как современные фактографические системы часто работают с неструктурированными блоками информации (текстами, графикой, звуком, видео), снабженными структурированными описателями.
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет
studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав!Последнее добавление