Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Система кодирования




Фасетная и дескрипторная системы классификации

Иерархическая система классификации

Система классификации

Классификация и кодирование информации

 

Важным понятием при работе с информацией является классификация объектов. Классификация — система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.

Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов - это процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.

Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными, например вес, стоимость, год, либо признаками, например цвет, марка машины, фамилия.

Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов.

При любой классификации желательно, чтобы соблюдались следующие требования:

· полнота охвата объектов рассматриваемой области;

· однозначность реквизитов;

· возможность включения новых объектов.

В любой стране разработаны и применяются государственные, отраслевые, региональные классификаторы. Например, классифицированы: отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т.д.

Классификатор - систематизированный свод наименований и кодов классификационных группировок. При классификации широко используются понятия классификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное как признак классификации. Признак классификации имеет также синоним основание деления.

Множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам, носит название классификационной группировки. Основанием классификации называется признак, по которому ведется разбиение множества на подмножества на определенной ступени классификации. Ступень классификации - это результат очередного распределения объектов одной классификационной группировки. Уровень классификации - это совокупность класси­фикационных группировок, расположенных на одних и тех же сту­пенях классификации. Глубина системы классификации - это коли­чество уровней классификации, допустимое в данной системе.

Каждая система классификации характеризуется следующи­ми свойствами:

1) гибкостью системы;

2) емкостью системы;

3) степенью заполненности системы (коэффициент заполненности).

Гибкость системы - это способность допускать включение новых признаков, объектов без разрушения структуры клас­сификатора.

Емкость системы - это наибольшее количество классифика­ционных группировок, допускаемое в данной системе классифи­кации.

Степень заполненности системы определяется как част­ное от деления фактического количества группировок на величину емкости системы.

В настоящее время чаще всего применяются два типа систем классификации: иерархическая и многоаспектная системы классификации.

 

 

Характерными особенностями иерархической системы явля­ются:

1) наличие в системе неограниченного количества признаков классификации;

2) жесткая соподчиненность признаков классификации, что выражается разбиением каждой классификационной группировки, обра­зованной по одному признаку, на множество классификаци­онных группировок по нижестоящему (подчиненному) при­знаку.

При построении иерархической системы классификации сна­чала выделяется некоторое множество объектов, подлежащее классифицированию Мо, для которого определяются полное мно­жество признаков классификации G и их соподчиненность друг другу, затем производится разбиение исходного множества объек­тов на классификационные группировки на каждой ступени клас­сификации.

При использовании иерархической системы классификации необходимо соблюдать следующие ограничения:

1) получающиеся на каждом уровне классификационные груп­пировки должны составлять исходное множество объектов;

2) классификационные группировки на каждой ступени не должны пересекаться;

3) классификация на каждой ступени должна проводиться толь­ко по одному признаку.

Однако эта система характеризуется жесткой структурой классификации, не позволяющей вносить новые признаки или изменять их последовательность. Гибкость этой системы обес­печивается только за счет ввода большой избыточности в вет­вях, что приводит к слабой заполненности структуры класси­фикатора.

Учитывая достаточно жесткую процедуру построения структуры классификации, необходимо перед началом работы определить ее цель, т.е. какими свойствами должны обладать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации.

В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения.

Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии.

Достоинства иерархической системы классификации:

· простота построения;

· использование независимых классификационных признаков в различных ветвях иерархической структуры.

Недостатки иерархической системы классификации:

· жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;

· невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.

 

 

Недостатки, отмеченные в иерархической системе, отсутству­ют в других системах, которые относятся к классу многоаспект­ных систем классификации. Аспект - точка зрения на объект клас­сификации, который характеризуется одним или несколькими признаками. Многоаспектная система - это система класси­фикации, которая использует параллельно несколько независимых признаков (аспектов) в качестве основания классификации. Существуют два типа многоаспектных систем: фасетная и дескрипторная.

Фасет - это аспект классификации, который исполь­зуется для образования независимых классификационных груп­пировок. Дескриптор - ключевое слово, определяющее неко­торое понятие, которое формирует описание объекта и дает при­надлежность этого объекта к классу, группе и т.д.

Фасетная система характеризуется следующими особеннос­тями построения:

1) имеется некоторое множество классифицируемых объектов (Мо);

2) это множество можно рассматривать в нескольких аспектах, каждый из которых может характеризоваться одним или не­сколькими признаками, образующими фасет Фr;

3) устанавливается некоторый порядок следования фасетов с помощью фасетной формулы (при этом последовательность фасетов определяется по частоте обращения к этим фасетам на некотором множестве заданных задач):

 

F = (Ф1, Ф2, …, Фr,…, ФR)

 

4) определяется количество подмножеств классификационных группировок, число которых определяется числом задач, обращающихся при своем решении к тем или иным фасетам.

Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet — рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Схема построения фасетной системы классификации в виде таблицы отображена на рис. 4.1. Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Ф1, Ф2, …, Фi…, Фn.. Например, цвет, размер одежды, вес и т.д. Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета, Например, фасет цвет, обозначенный Ф2, содержит значения, красный, белый, зеленый, черный, желтый.

 

Фасеты

 
 


Фi Ф2 Ф3 …..Фi ….Фn

1          
           
         
k          

 

Значения фасетов

 

Рис. 4.1. Фасетная система классификации

 

Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты, Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования:

 

КS = (Ф1, Ф2, …,Фi,…, Фn),

 

где Фi – i-й фасет; n - количество фасетов.

 

При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно модифицировать, внося изменения в конкретные значения любого фасета.

Достоинства фасетной системы классификации:

1) возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;

2) возможность простой модификации всей системы классификации без изменения структуры существующих группировок.

Недостатком фасетной системы классификации является сложность ее постро­ения, так как необходимо учитывать все многообразие классификационных признаков.

Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов.

Особенно широко она используется в библиотечной системе поиска.

Суть дескрипторного метода классификации заключается в следующем:

1) отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;

2) выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребляемых;

3) создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:

1) синонимические, указывающие некоторую совокупность ключевых слов как синонимы;

2) родовидовые, отражающие включение некоторого класса объектов в более представительный класс;

3) ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.

Синонимическая связь: студент - учащийся - обучаемый. Родовидовая связь: университет – факультет - кафедра. Ассоциативная связь: студент - экзамен - профессор - аудитория.

 

 

Для полной формализации экономической информации недо­статочно простой классификации, поэтому проводят следующую процедуру - кодирование.

Кодирование - это процесс присвое­ния условных обозначений объектам и классификационным группам по соответствующей системе кодирования.

Система кодирования - это совокупность правил обозначения объектов и группировок с использованием кодов.

Код - это условное обозна­чение объектов или группировок в виде знака или группы знаков в соответствии с принятой системой.

Код базируется на определен­ном алфавите (некоторое множество знаков). Число знаков этого множества называется основанием кода.

Различают следующие типы алфавитов: цифровой, буквенный и смешанный. Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации.

Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:

длиной – число позиций в коде;

структурой – порядок расположения в коде символов, используемых для обозначения классификационного признака.

Процедура присвоения объекту кодового обозначения называется кодированием. Можно выделить две группы методов, используемых в системе кодирования (рис. 4.2), которые образуют:

1) классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов, либо на основе иерархической системы, либо на основе фасетной системы;

2) регистрационную систему кодирования, не требующую предварительной классификации объектов.

 

 
 

 


Рис. 4.2. Система кодирования, использующая разные методы

 




Поделиться с друзьями:


Дата добавления: 2014-01-03; Просмотров: 5095; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.031 сек.