Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Общие сведения. Система классификации




КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ ИНФОРМАЦИИ

 

Система классификации

Система кодирования

Классификация информации по разным признакам

СИСТЕМА КЛАССИФИКАЦИИ

 

Важным понятием при работе с информацией является классификация объектов.

Классификация – система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.

 

Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов – это процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.

Пример 2.6. Всю информацию об университете можно классифицировать по многочисленным информационным объектам, которые будут характеризоваться общими свойствами:

§ информация о студентах – в виде информационного объекта "Студент";

§ информация о преподавателях – в виде информационного объекта "Преподаватель";

§ информация о факультетах – в виде информационного объекта "Факультет" и т.п.

 

Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными, например вес, стоимость, год, либо признаками, например цвет, марка машины, фамилия.

Реквизит – логически неделимый информационный элемент, описывающий определенное свойство объекта, процесса, явления и т.п.

Пример 2.7. Информация о каждом студенте в отделе кадров университета систематизирована и представлена посредством одинаковых реквизитов:

§ фамилия, имя, отчество;

§ пол;

§ год рождения;

§ место рождения;

§ адрес проживания;

§ факультет, где проходит обучение студент, и т.д.

Все перечисленные реквизиты характеризуют свойства информационного объекта "Студент".

 

Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной совокупностью реквизитов.

Пример 2.8. Алгоритм обработки информационных объектов библиотечного фонда позволяет получить информацию о всех книгах по определенной тематике, об авторах, абонентах и т.д.

Алгоритм обработки информационных объектов фирмы позволяет получить информацию об объемах продаж, о прибыли, заказчиках, видах производимой продукции и т.д.

Алгоритмы обработки в том и другом случае преследуют разные цели, обрабатывают разную информацию, реализуются разными способами.

 

При любой классификации желательно, чтобы соблюдались следующие требования:

§ полнота охвата объектов рассматриваемой области;

§ однозначность реквизитов;

§ возможность включения новых объектов.

В любой стране разработаны и применяются государственные, отраслевые, региональные классификаторы. Например, классифицированы: отрасли промышленности, оборудование, профессии, единицы измерения, статьи затрат и т.д.

Классификатор – систематизированный свод наименований и кодов классификационных группировок.

 

При классификации широко используются понятия классификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, названное как признак классификации. Признак классификации имеет также синоним основание деления.

Пример 2.9. В качестве признака классификации выбирается возраст, который состоит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет.

Можно в качестве признаков классификации использовать: возраст до 20 лет, возраст от 20 до 30 лет, возраст свыше 30 лет.

 

Разработаны три метода классификации объектов: иерархический, фасетный, дескрипторный. Эти методы различаются разной стратегией применения классификационных признаков. Рассмотрим основные идеи этих методов для создания систем классификации.

 

Рис. 2.3. Иерархическая система классификации

Иерархическая система классификации

Иерархическая система классификации (рис. 2.3) строится следующим образом:

§ исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень;

§ каждый класс 1-го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень;

§ каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т.д.

 

Учитывая достаточно жесткую процедуру построения структуры классификации, необходимо перед началом работы определить ее цель, т.е. какими свойствами должны обладать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации.

Запомните! В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков.

 

В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии.

Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.

Достоинства иерархической системы классификации:

§ простота построения;

§ использование независимых классификационных признаков в различных ветвях иерархической структуры.

Недостатки иерархической системы классификации:

§ жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;

§ невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.

Пример 2.10. Поставлена задача – создать иерархическую систему классификации для информационного объекта "Факультет", которая позволит классифицировать информацию обо всех студентах по следующим классификационным признакам: факультет, на котором он учится, возрастной состав студентов, пол студента, для женщин – наличие детей.

Система классификации представлена на рис.2.4 и будет иметь следующие уровни: 0-й уровень. Информационный объект "Факультет";

1-й уровень. Выбирается классификационный признак – название факультета, что позволяет выделить несколько классов с разными названиями факультетов, в которых хранится информация обо всех студентах.

2-й уровень. Выбирается классификационный признак – возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому факультету выделяются три возрастных подкласса студентов.

3-й уровень. Выбирается классификационный признак – пол. Каждый подкласс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы – мужчин и женщин.

4-й уровень. Выбирается классификационный признак – наличие детей у женщин: есть, нет.

Созданная иерархическая система классификации имеет глубину классификации, равную четырем.

 

Рис. 2.4. Пример иерархической системы классификации для информационного объекта "Факультет"

 

Фасетная система классификации

Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet – рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Пример 2.11. Фасет цвет содержит значения: красный, белый, зеленый, черный, желтый.

Фасет специальность содержит названия специальностей.

Фасет образование содержит значения: среднее, среднее специальное, высшее.

 

Схема построения фасетной системы классификации в виде таблицы отображена на рис. 2.5. Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Ф1, Ф2,..., Фi,..., Фn. Например, цвет, размер одежды, вес и т.д. Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное значение фасета. Например, фасет цвет, обозначенный Ф2, содержит значения: красный, белый, зеленый, черный, желтый.

 

 

Рис. 2.5. Фасетная система классификации

 

Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования:

 

 

где Фii -й фасет;

п – количество фасетов.

 

При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко можно модифицировать, внося изменения в конкретные значения любого фасета.

Достоинства фасетной системы классификации:

§ возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;

§ возможность простой модификации всей системы классификации без изменения структуры существующих группировок.

Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.

Пример 2.12. Обратитесь к содержанию примера 2.10, где показано построение иерархической системы классификации. Для сопоставления разработаем фасетную систему классификации.

Сгруппируем и представим в виде таблицы (рис. 2.6) все классификационные признаки по фасетам:

§ фасет название факультета с пятью названиями факультетов;

§ фасет возраст с тремя возрастными группами;

§ фасет пол с двумя градациями;

§ фасет дети с двумя градациями.

Структурную формулу любого класса можно представить в виде:

Ks = (Факультет, Возраст, Пол, Дети)

Присваивая конкретные значения каждому фасету, получим следующие классы:

§ К1 = (Радиотехнический факультет, возраст до 20 лет, мужчина, есть дети);

§ К2 = (Коммерческий факультет, возраст от 20 до 30 лет, мужчина, детей нет);

§ К3 = (Математический факультет, возраст до 20 лет, женщина, детей нет) и т.д.

 

Название факультета Возраст Пол Дети
Радиотехнический До 20 лет М Есть
Машиностроительный 20 – 30 лет Ж Нет
Коммерческий Свыше 30 лет    
Информационные системы      
Математический      

Рис. 2.6. Пример фасетной системы классификации для информационного объекта "Факультет"

Дескрипторная система классификации

 

Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.

Суть дескрипторного метода классификации заключается в следующем:

§ отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;

§ выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;

§ создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

Пример 2.13. В качестве объекта классификации рассматривается успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов.

В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.

 

Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:

§ синонимические, указывающие некоторую совокупность ключевых слов как синонимы;

§ родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;

§ ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.

Пример 2.14. Синонимическая связь: студент – учащийся – обучаемый. Родо-видовая связь: университет – факультет – кафедра. Ассоциативная связь: студент – экзамен – профессор – аудитория.




Поделиться с друзьями:


Дата добавления: 2014-12-25; Просмотров: 2011; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.104 сек.