КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Информационно-поисковые языки
ЛЕКЦИЯ 3
Учебная презентация Вопросы: 1) Информационно-поисковые языки (ИПЯ): понятие и структура. 2) Упорядочения лексических единиц ИПЯ. 3) Требования к ИПЯ
Вопрос 1. Информационно-поисковые языки: структура и требования. Наряду с многочисленными естественными языками в человеческом обществе получили большое распространение и различные искусственные языки. Они создаются людьми для решения каких-либо задач в области науки и техники (машинные языки), для общения между людьми (эсперанто, профессиональные диалекты). Среди искусственных языков особое значение занимают информационные языки. Необходимость создания и использования информационных языков для обработки информации возникла и продолжает углубляться по мере совершенствования информационной технологии в обществе. Машинный язык — это искусственный, формальный язык, предназначенный для записи информации, хранящейся в запоминающем устройстве вычислительных машин, для описания программ (алгоритмов), указывающих очередность и последовательность выполнения команд по вводу данных из запоминающего устройства, переработке и преобразованию поступающей в машину информации. Для поиска информации разрабатываются и широко применяются такие искусственные языки, как информационно-поисковые. Информационно - поисковый язык (ИПЯ) — искусственная знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации. Структура ИПЯ однотипна с формальной структурой информации и предполагает выделение следующих уровней: - фонетического; - лексического; - синтаксического; - текстового. Элементы каждого уровня объединяются в синтагмы и парадигмы. Фонетический уровень — это алфавит (списка элементарных символов). В ИПЯ для этого применяют символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации. Лексический уровень или словарный запас — совокупность всех употребляемых в ИПЯ лексических единиц. Лексическая единица — наименьшая осмысленная последовательность знаков, задаваемая при конструировании отдельных слов языка. Лексические единицы и образуют лексику языка.
Вопрос 2. Упорядочение лексических единиц ИПЯ. Для упорядочения лексических единиц ИПЯ служат парадигматические отношения, которые фактически определяют и задают структуру языка. Парадигматические отношения (аналитические) — это внетекстовые, объективно существующие смысловые отношения между лексическими единицами, которые устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска. Парадигматические отношения учитывают сходство или различие в объеме и содержании лексических единиц (понятий). Отношения делятся на: сильные (логические) и слабые (ассоциативные). Объем понятия — множество предметов, отображенных в данном понятии. Например, "периодические издания" включает газеты, журналы. Количество предметов, входящих в объем, может быть конечным (части света), бесконечным (число), существуют единичные понятия (Луна). Содержание понятия — это отраженная в сознании совокупность свойств, присущих каждому предмету, входящему в объем понятия. К сильным (логическим) парадигматическим отношениям относятся: · Эквивалентности (равнозначности) — отношения между понятиями, объемы которых совпадают, но в содержании имеются различия. Например, документ печатный — документ опубликованный; документ рукописный — документ неопубликованный. · Подчинения — отношения между понятиями, когда объем одного или нескольких понятий входит в объем другого. Например, вторичные документы (род) включают аннотации, рефераты (виды). · Соподчинения — между видовыми понятиями, в равной степени подчиненными одному родовому. Например, книга, брошюра, листовка — виды непериодических изданий. · Перекрещивания — между понятиями, содержание которых различно, но объемы частично совпадают. Например, студенты и туристы, писатели и ученые. · Противоположности — между соподчиненными понятиями, которые в своем содержании имеют несовместимые признаки, обуславливающие несовпадение объемов. Например, документы текстовые и документы машиночитаемые. · Противоречия (контрадикторности) — между двумя соподчиненными понятиями, видовые признаки которых несовместимы, что обуславливает несовпадение объемов этих понятий. Эти понятия исключают друг друга. Например, документы первичные и документы вторичные. Слабые (ассоциативные) парадигматические отношения выражают связи не между понятиями, а между самими предметами (технологические, причинно-следственные, системно-элементные). При создании ИПЯ целесообразно фиксировать следующие ассоциативные отношения: · Целое — часть (Справочно-поисковый аппарат и каталоги, картотеки). · Система — элемент (Архивная отрасль Беларуси и Национальный исторический архив). · Отношения детерминации: причина — следствие (Старение публикаций и снижение спроса). · Процесс — оборудование (Ксерокопирование и ксерокс). · Процесс — материал (Ксерокопирование и бумага). · Материал — изделие (Древесина и бумага). · Изделие — процесс изготовления (Документ и документирование). · Предмет — назначение (Магнитные диски и запись информации). · Наука — объекты изучения (Информатика и информация). · Наука — представители (Философия и Сократ). Парадигматические отношения позволяют объединять лексические единицы ИПЯ в семантические группы — парадигмы, элементы которых обладают свойством взаимозаменяемости. Кроме парадигматических отношений существуют синтагматические (синтаксические, грамматические, текстуальные) отношения, служащие для установления семантических связей между лексическими единицами. Речь идет о правилах образования и правилах интерпретации ИПЯ. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения. Средства выражения синтагматических отношений называют грамматикой ИПЯ. ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. Одной из основных характеристик ИПЯ является семантическая сила — возможность передавать полно и точно содержание сообщений.
Вопрос 3. Требования к ИПЯ. При разработке конкретного ИПЯ учитываются: - специфика отрасли или предмета, для которой этот язык создаётся, - особенности текстов, образующих поисковый массив, - характер информационных потребностей, для удовлетворения которых создается язык. В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких языках выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного. В середине 20 в. в качестве ИПЯ широко применялись библиотечно-библиографические классификации и классификации дескрипторного типа). Главная отличительная особенность ИПЯ — простота лексики и грамматики по сравнению с теми же элементами естественного языка. Требования, предъявляемые к ИПЯ: однозначность, точность и недвусмысленность семантики (каждая запись ИПЯ должна иметь точно определенное и одно-единственное значение); большая семантическая сила (словарь должен включать все термины, необходимые для индексирования документов и запросов); удобство для пользования; простота и немногочисленность грамматических средств.
ЛЕКЦИЯ 4 КЛАССИФИКАЦИЯ ИНФОРМАЦИОННО-ПОИСКОВЫХ ЯЗЫКОВ
Учебная презентация Вопросы: 1) Типы и виды ИПЯ. 2) ИПЯ дескрипторного типа. 3) Методика построения и грамматика ИПЯ дескрипторного типа. Вопрос 1. Типы и виды ИПЯ. В настоящее время существует множество типов и видов ИПЯ. Наиболее распространенными подходами к классификации ИПЯ являются: классификация Ф.Ланкастера, классификация ВИНИТИ, классификация ЛГИК им. Н.К.Крупской. Последняя классификация представляется наиболее логичной. В ее основу положены три видообразующих признака, учитывающих основные структурные элементы языка: лексику, парадигматику и синтагматику. К этим признакам относятся способ задания лексических единиц, способ кодирования (сочетания) лексических единиц и способ учета парадигматических отношений. Принимается во внимание и возможность автоматизированного поиска. 1) По способу задания лексических единиц: контролируемые и неконтролируемые. Контролируемые ИПЯ — языки, лексика которых задается заранее с помощью словарей и таблиц (УДК, ББК). Неконтролируемые ИПЯ — языки, лексика которых не задается словарем, а строится на основе выбора неограниченного множества терминов естественного языка из индексируемых сообщений. 2) По координации лексических единиц (способу записи): некоординируемые и координируемые. Некоординируемые ИПЯ — языки, не допускающие координации своих лексических единиц ни в процессе индексирования, ни в процессе поиска. Координируемые ИПЯ — языки, в которых лексические единицы координируются между собой или в процессе индексирования, или в процессе поиска. Различают Предкоординируемые и посткоординируемые ИПЯ. Предкоординируемые языки устанавливают порядок записи лексических единиц в процессе индексирования по заранее определенным правилам и предусматривается их жесткая последовательность. Как правило, используются в ручном поиске. Посткоординируемые ИПЯ — языки, в которых лексические единицы задаются в процессе индексирования и сочетаются между собой только в процессе поиска. 3) С учетом и без учета парадигматических отношений: иерархические, фасетные и неиерархические. Языки иерархической структуры представляют собой иерархическую классификацию — систему классов, по которым распределяются понятия на основании наиболее существенных признаков, присущих этим понятиям и отличающих их друг от друга. Класс — совокупность объектов, имеющих один или несколько общих содержательных признаков. Недостаток — невозможность организации внеиерархических связей (иерархическая модель данных — невозможность перекрестных запросов). Пример иерархической классификации: 1. Документы 1.1 Иконические 1.2 Идеографические 1.3 Текстовые 1.3.1 Первичные 1.3.1.1 Неопубликованные 1.3.1. 2 Опубликованные 1.3.2 Вторичные Языки фасетной структуры представляют собой фасетную классификацию — совокупность фасетов, следующих друг за другом в определенной последовательности. В основе построения такой классификации лежит индуктивный метод, который предполагает исследование отдельных предметов множества, нахождение в них общих существенных признаков и группировку на основе последних терминов, обозначающих эти понятия. Пример фасетной классификации: 1 Документы по знаковой форме представления информации 1.1 Идеографические 1.2 Иконические 1.3 Текстовые 2 Документы по способу распространения 2.1 Неопубликованные 2.2 Опубликованные 3 Документы по периодичности изданий 3.1 Непериодические 3.2 Периодические 3.3 Продолжающиеся Языки неиерархической структуры являются продуктом эмпирического подхода к построению ИПЯ. Такой подход предполагает создание языка на основе индексирования реальных текстов. Из содержания документа выбираются ключевые слова, которые преобразуются в лексические единицы ИПЯ (ТАСТ, алфавитно-предметная классификация). К специальным неиерархическим ИПЯ с учетом сильных и слабых прардигматических отношений относится дескрипторный язык.
Вопрос 2. ИПЯ дескрипторного типа. Дескрипторные ИПЯ — искусственные информационные языки, появившиеся 1950-ых годах. Возможность и необходимость их создания были вызваны рядом объективных причин. В эти годы были разработаны первые механизированные системы поиска информации и предпринята попытка использования ЭВМ для решения разнообразных информационно-поисковых задач. Традиционные языки предкоординатного тиап не соответствовали требованиям механизированного, а в дальнейшем автоматизированного поиска информации. Интенсивный поиск новых семантических средств привел к созданию принципиально новых ИПЯ посткоординатного типа. Основы индексирования данных языков были заложены в работах М.Тауба и К.Муерса за рубежом и В.П.Черенина в СССР. М.Тауб в 1951 году разработал ИПЯ унитермов, т.е. неформализованных единичных терминов, перечнем которых можно достаточно полно и точно передать содержание документа и запроса. Координация унитермов происходит в момент поиска сообщения после получения запроса. Однако этот язык не отвечал требованию однозначности. И нуждался в совершенствовании. В своем первоначальном виде ИПЯ унитермов не применяются. Зато широко распространился ИПЯ унитермов с искусственной грамматикой, который принято называть дескрипторным. Понятие о дескрипторе ввел в информатику К.Муерс. (Дескриптор — позднелат. descriptor, от лат. describо — описываю). Он предложил уитывать синонимию в языке унитермов и применять лексикографический контроль за используемыми ключевыми словами, который заключался в их нормализации и полном устранении неоднозначности и многозначности. К.Муерс считал, что для контроля лексики должен составляться специальный дескрипторный словарь Таким образом, дескрипторный язык — искусственный язык посткоординатного типа, построенный на безе формализованной лексики естественного языка. Для контроля лексики создается информационно-поисковый тезаурус (ИПТ) — контролируемый словарь лексических единиц дескрипторного языка, основанный на лексике одного естественного языка, отображающий семантические отношения между лексическими единицами и предназначенный для организации поиска информации путем индексирования документов и/или запросов. Каждый конкретный ИПЯ отражает систему понятий предметной области знания в виде структурированной совокупности терминов и является результатом серьезной и трудоемкой работы. Вопрос 3. Методика построения и грамматика ИПЯ дескрипторного типа. Разработка ИПТ осуществляется на основе следующих этапов: 1) Определение тематического профиля ИПТ. Тематический профиль определяется путем анализа информационных потребностей специалистов отрасли. 2) Сбор лексики и формирование словника ключевых слов. Словник — исходный массив терминов, который потом подвергается семантической обработке в процессе дескрипторизации. Массив формируется путем извлечения первичных, а чаще вторичных документов и ключевых слов. Иногда используются справочная литература, опрос специалистов. Основная проблема на этом этапе формулировка ключевых слов. Служебные слова (предлоги, союзы, частицы) следует считать неключевыми; общие термины (метод, способ и т.п.) необходимо употреблять только в сочетании с другими словами, конкретизирующими их значение. Ключевыми словами могут быть словосочетания. 3) Построение словарных статей и формирование лексико-семантического указателя. Осуществляется дескрипторизация ключевых слов (для составления дескрипторного словаря) и установление прадигматических отношений между дескрипторами (для увеличения семантической силы языка). Устраняется неоднозначность ключевых слов путем снабжения соответствующими пояснениями — реляторами (ЗАПИСЬ – процесс, ЗАПИСЬ – предмет) Все слова группируются в классы эквивалентности: Безусловноэквивалентные (ОПУБЛИКОВАННЫЕ ДОКУМЕНТЫ = ПЕЧАТНАЯ ПРОДУКЦИЯ) и условно-эквивалентные (ТЕХНИЧЕСКИЕ СРЕДСТВА=АППАРАТУРА) После этого производится выбор одного из слов в качестве дескриптора. Таким образом, дескриптор — лексическая единица ИПТ, под которой принято понимать нормализованное слово или словосочетание, выбранное из множества условно-эквивалентных ключевых слов для его обозначения. Свойства дескриптора: § Полнота выражения смыслового значения данного класса. § Краткость и понятность. § Частота встречаемости термина в текстах документов и запросов. Аскриптор — лексическая единица ИПТ, входящая в класс эквивалентности данного дескриптора, которая при индексировании документов и запросов подлежит замене на дескриптор. Результат дескрипторизации: дескрипторный словарь – алфавитный перечень дескрипторов и аскрипторов. Например: АРХИВЫ Архивные службы Архивные учреждения Архивные центры Статьи аскрипторов снабжаются отсылками на заменяющие их дескрипторы. Стандарт предлагает три типа отсылок: 1. Аскриптор – синоним дескриптора: Первичные издания см ПЕРВИЧНЫЕ ДОКУМЕНТЫ 2. Аскриптор, заменяемый комбинацией дескрипторов (используй комбинацию): Русские тексты исп к РУССКИЙ ЯЗЫК ТЕКСТЫ 3. Аскрипторы, заменяемые несовместимыми дескрипторами (используй альтернативу): Текущая информация исп а СВЕДЕНИЯ ТЕКУЩЕЕ ИНФОРМИРОВАНИЕ Далее устанавливаются парадигматические отношения. Данный процесс включает: § Логический анализ. § Ассоциативный анализ. § Прагматический анализ. Логический анализ – сопоставление объемов понятий, представленных дескрипторами: ПРИКАЗЫ вр ОРГАНИЗАЦИОННО_РАСПОРЯДИТЕЛЬНАЯ ДОКУМЕНТАЦИЯ (выше род) ПРИКАЗЫ нв ПРИКАЗЫ ПО ЛИЧНОМУ СОСТАВУ (ниже вид) Ассоциативный анализ – сопоставление признаков предметов, входящих в определенные понятия, представленные дескрипторами. КАТАЛОГ вц НАУНО-СПРАВОЧНЫЙ АППАРАТ (выше целое) АРХИВ нч ОТДЕЛ (ниже часть) Прагматический анализ – упорядочение структуры и состава словарной статьи дескриптора. Учитывает: область ИПТ, терминологические особенности отрасли знания Структура дескрипторной статьи имеет вид: Д {Мс; Мв; Мн; Ма} где Д – заглавный дескриптор; Мс – множество аскрипторов, входящих в класс эквивалентности дескриптора; Мв – множество вышестоящих дескрпиторов; Мн – множество нижестоящих аскрипторов; Ма – множество ассоциативных дескрпиторов. Например для дескриптора: АРХИВЫ с АРХИВНЫЕ СЛУЖБЫ АРХИВНЫЕ УЧРЕЖДЕНИЯ в ИНФОРМАЦИОННЫЕ СЛУЖБЫ н НАЦИОНАЛЬНЫЙ АРХИВ РЕГИОНАЛЬНЫЙ АРХИВ а СИСТЕМА АРХИВНОГО ОБСЛУЖИВАНИЯ Для аскриптора: АРХИВНЫЕ СЛУЖБЫ см АРХИВЫ 4) Разработка вспомогательных указателей. Наиболее распространены три типа указателей: систематический указатель дескрипторов тезауруса, указатель иерархических отношений и пермутационный указатель дескрипторов. Систематический указатель – алфавитный список дескрипторов (тематический, категориальный, смешанный). Указатель иерархических отношений — свод классификационных деревьев. Каждый дескриптор может входить при этом более чем в одно дерево. Пермутационный указатель — перечень списков, каждый их которых соответствует одному из знаменательных слов в составе лексической единицы. Предназначен для поиска лексической единицы по отдельным словам. 5) Оформление ИПТ. 6) Экспертиза и регистрация ИПТ. Основным способом уменьшения информационного шума является введение в ИПЯ грамматических средств, которые позволяют точно и полно выражать синтагматические отношения. Грамматические средства делятся на: - фрагментирующие. Для разделения поискового образа на части. К ним относятся указатели связи (буквы, цифры, знаки); - смыслоразличительные. Для указания смысловой роли различительных слов внутри фрагмента поискового образа. К ним относятся указатели роли.
ЛЕКЦИЯ 5
Дата добавления: 2014-01-11; Просмотров: 16967; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |