Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Сумма произведений и будет являться представлением числа в десятичной системе счисления




Принципы классификации и кодирования данных

Весьма важными операциями с данными являются их классификация и кодирование, позволяющие представить информацию для автоматизированной обработки в наиболее компактной и удобной форме.


В соответствии с существующим стандартом Единой системы классификации и кодирования технической и экономической информации:

классификация это деление множества объектов на подмножества по их сходству или отличию в соответствии с тем или другим методом;

объект классификации это элемент множества, которое классифицируется;

признак классификации свойство или характеристика объекта, по которым проводится классификация;

классификационная группировка подмножество объектов, которое получено в результате классификации.

Существуют три системы классификации объектов:

— иерархическая;

— фасетная;

— дескрипторная.

Эти системы различаются разной стратегией применения классификационных признаков.

Иерархическая система классификации (рис. 1.13) строится следующим образом:

— исходное множество элементов составляет 0 – й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1 – й уровень;

— каждый класс 1 – го уровня в соответствии со своим, характерным для него классификационным признаком, делится на подклассы, которые образуют 2 – й уровень;

— каждый класс 2 – го уровня аналогично делится на группы, которые образуют 3 – й уровень, и т.д.

 
 

Учитывая достаточно жесткую процедуру построения структуры классификации, необходимо перед началом работы определить, какими свойствами должны обладать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации.

Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания для деления, характеризует глубину классификации.

Достоинства иерархической системы классификации:

— простота построения;

— использование независимых классификационных признаков в различных ветвях иерархической структуры.

Недостатки иерархической системы классификации:

— жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;

— невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.

Примерами такой классификации, реализованной в области права многих стран, является инкорпорация законодательства – построение строго иерархической системы и структуры норм права, охватывающая Конституцию, законы, подзаконные акты и т.д.

Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо, как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet – рамка). Каждый фасет содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Схема построения фасетной системы классификации отображена на рисунке 1.14.

 
 

Названия столбцов соответствуют выделенным классификационным признакам (фасетам), обозначенным Ф1, Ф2,..., Фп. Например, цвет, размер одежды, вес и т.д. В каждой клетке таблицы хранится конкретное значение фасета. Например, фасет цвет, обозначенный Ф2, содержит значения: красный, белый, зеленый, черный, желтый и т.д.

Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов структурной формулой, в которой отражается их порядок следования.

При построении фасетной системы классификации необходимо, чтобы значения, используемые в различных фасетах, не повторялись. Фасетную систему легко модифицировать, внося изменения в конкретные значения любого фасета.

В качестве примера использования фасетной системы классификации можно привести организацию каталога в поисковой системе «Яндекс». Информация о значениях фасетов из каталога используется непосредственно для поиска необходимой информации.

Основные фасеты, используемые в каталоге: Тема, Регион, Жанр, Источник информации, Адресат информации, Сектор экономики.

Тема имеет около 600 значений и описывает предметную область ИНТЕРНЕТ – ресурса. Значение признака определяется содержанием текстов, сферой деятельности представляемой организации или областью применения предлагаемого продукта.

Регион определяет принадлежность ресурса к одной из 230-ти географических областей. Принадлежность ресурса к региону может определяться несколькими показателями: географическим расположением представляемого объекта (например, местоположение торговой фирмы), сферой управления и влияния (регион действия политической партии), потенциальной аудиторией информации (целевая аудитория новостного издания) или информационным содержанием ресурса (справочник фирм города или история страны).

Источник информации имеет пять значений: Официальный, СМИ, Неформальный, Персональный, Анонимный. С каждым из этих пяти типов источника информации связаны свои особенности подачи предоставляемых сведений – оперативность, достоверность, полнота, уникальность, объективность и т.д.

Адресат информации имеет четыре значения: Партнеры, Инвесторы, Потребители, Коллеги. Признак определяет аудиторию, для которой материалы могут представлять интерес – обычные покупатели, оптовики или фирмы – потребители, инвесторы или специалисты.

Сектор экономики имеет три значения: Государственный, Коммерческий, Некоммерческий. Признак присваивается ресурсам организаций или частных предпринимателей и указывает на их экономико-правовой статус.

Достоинства фасетной системы классификации:

— возможность создания большой глубины классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;

— возможность простой модификации всей системы классификации без изменения структуры существующих группировок.

Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.

Дескрипторная система классификации используется для организации поиска информации, для ведения тезаурусов (словарей), в описательных системах классификации. Особенно широко она используется в информационно – поисковых и информационно – справочных системах.

Суть дескрипторного метода классификации заключается в следующем:

— отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;

— выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребляемых;

— создается словарь дескриптора, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

Примером дескрипторной системы классификации является организация учета успеваемости студентов. Ключевыми словами могут быть: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д.

Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся, или: преподаватель, учитель, педагог, или: факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, доцент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.

Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть следующих видов:

— синонимические, указывающие некоторую совокупность ключевых слов как синонимы (например, студент – учащийся – обучаемый);

— родовидовые, отражающие включение некоторого класса объектов в более представительный класс (например, университет – факультет – кафедра);

— ассоциативные, соединяющие дескрипторы, обладающие общими свойствами (например, студент – экзамен – профессор – аудитория).

Достоинства дескрипторной системы классификации:

— использование естественного языка для создания дескрипторов;

— простая технология создания дескрипторов.

Недостатком дескрипторной системы классификации является невозможность организации процедур выбора более сложных, чем поиск по дескрипторному словарю. Необходимо глубокое знание всех отношений между терминами: родовидовых, синонимических, а также ассоциативных.

После завершения классификации осуществляют кодирование – создание и присвоение кода классификационной группировке и/или объекту классификации.

Кодирование информации – это процесс представления информации в определенном виде. В более узком смысле под термином «кодирование» понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

Условное обозначение объектов классификации с помощью знака или совокупности знаков называют кодом. При этом для каждого кода определяется алфавит кода – система знаков для его создания.

Код может быть:

— цифровым;

— буквенным;

— буквенно-цифровым;

— штриховым и др.

Исходные данные для решения той или иной задачи даются обычно в общепринятой десятичной системе счисления. Чтобы ЭВМ, основанная на двоичной системе, могла обрабатывать эти данные, они должны быть переведены на «понятный» арифметическому устройству ма­шины язык двоичного кода. Результаты же ма­шинного счета желательно иметь записанными снова в десятичной системе. Поэтому в ЭВМ предусмотрен автоматический перевод результатов, полученных в двоичной системе, в десятичную систему и наоборот.

Правило перевода десятичного числа в двоичное следующее:

Разделить десятичное число на 2 в целых числах; полученный при этом остаток даст цифру, стоящую в первом разряде двоичного числа. Разделив полученное частное снова на 2, взять второй остаток в качестве цифры второго разряда двоичного числа. Процесс деления продолжается до тех пор, пока частное от деления не станет равным 1, которая и будет старшим разрядом двоичного числа.

 
 

Для кодирования целых чисел от 0 до 255 необходимо 8 разрядов двоичного кода (8 бит). Восьми двоичных разрядов достаточно для кодирования 256 различных символов.

Для перевода двоичного числа в десятичное можно воспользоваться следующим правилом:

 
 

Представить двоичное число A в виде суммы произведений цифр числа an (а= 0 или 1) на их веса 2n (2 – основание двоичной системы счисления, n – номер разряда двоичного числа, n = 0, 1, 2, … i – 1, i)

 
 

В последнее время при организации торговли, в складском учете, библиотечном деле, охранных системах, почтовой службе, сборочном производстве, обработке документов стали широко использоваться штриховые коды.

Любой штриховой код строится по стандартным правилам. Совокупность правил называется штриховой символикой. Различают двухмерные и линейные символики штрих – кодов. Каждая штриховая символика имеет определенные требования к печати, нанесению, считыванию обозначений.

Двухмерными называются символики (рис. 1.15), разработанные для кодирования большого объема информации (до нескольких страниц текста). Двухмерный код считывается при помощи специального сканера двухмерных кодов и позволяет быстро и безошибочно вводить в ЭВМ большой объем информации. Расшифровка такого кода проводится в двух измерениях (по горизонтали и по вертикали).

За основу штрихового кодирования взят американский стандарт UPC (универсальный товарный код). На основе UPC разработана европейская система – EAN. Основные различия систем – в длине цифрового ряда (UPC – 13, а EAN – 12 цифр). В соответствии с принятым порядком производитель товара наносит на него штриховой код, формируемый с использованием данных о стране местонахождения производителя и кода производителя. Код производителя присваивается региональным отделением международной организации EAN International.

Международная система обеспечивает однозначную идентификацию любого товара, независимо от его происхождения, характеристик, применения и использования. Такой порядок регистрации позволяет исключить возможность появления двух различных товаров с одинаковыми кодами. Использование штрих – кодовой символики регламентируется Государственными стандартами Украины.

Линейный штриховой код – это последовательность черных и белых полос, представляющая некоторую информацию в виде, удобном для считывания техническими средствами. Каждая цифра или буква в штриховом коде отображается комбинацией штрихов и пробелов по четко определенным правилам (рис. 1.16).

Например, в штриховых кодах товара содержится следующая информация:

— страна происхождения товара, т.е. страна изготовителя или продавца («флаг страны»);

— предприятие – изготовитель;

— наименование товара, его

— потребительские свойства, размеры, масса, цвет.

Флаг страны содержится в первых 2 или 3 цифрах кода в соответствии с таблицей 1.1.

Таблица 1.1.
Страна Первые цифры кода Страна Первые цифры кода
Австрия 90 – 91 Россия 460 – 469
Бельгия   США, Канада 00 – 09
Англия   Тайвань  
Германия 400 – 440 Турция  
Голландия   Украина  
Дания   Финляндия  
Израиль   Франция 30 – 37
Испания   Чехия  
Италия 80 – 83 Швеция  
Китай 690 – 691 Швейцария  
Норвегия   Южная Корея  
Португалия   Япония 45 – 49

Согласно той или иной системе, каждому виду изделия присваивается свой номер. Возьмем, к примеру, цифровой код: 4820024700016 (рис. 1.17).

Первые три цифры (482) означают страну происхождения (изготовителя или продавца) продукта, следующие 4 или 5 в зависимости от длинны кода страны (0024) – предприятие – изготовитель, последующие пять (70001) – наименование товара, его потребительские свойства, размеры, масса, цвет.

Последняя цифра (6) контрольная, используется для проверки правильности считывания штрихов сканером.

 
 

Правило расчета контрольной суммы:


Результат должен совпадать с контрольной цифрой 6, которая позволяет «невооруженным глазом» оценить подлинность и качество товара. Если полученная после расчета цифра не совпадает с контрольной цифрой в штрих – коде, то товар произведен незаконно, либо штрих – код считан неправильно.

Для считывания штриховых кодов применяются специальные сканеры штрихового кода, которые могут быть ручными или стационарными (рис. 1.18).

Сканер засвечивает штрих – код своим осветителем и считывает полученное изображение. После этого он определяет наличие в нем черных полос штрих – кода. Если в сканере нет встроенного декодера (блока расшифровки штрих – кода), то сканер передает в приемное устройство серию сигналов, соответствующих ширине черных и белых полос.

Расшифровка штрих – кода должна выполняться приемным устройством или внешним декодером. Если сканер оснащен внутренним декодером, он расшифровывает штрих – код и передает информацию в приемное устройство (компьютер, кассовый аппарат и т.д.) в соответствии с сигналами интерфейса, определяемого моделью сканера.

В каждом конкретном случае этот код несет всю необходимую информацию. Например, при сканировании штрихового кода товара кассовый аппарат автоматически находит цену товара и совершает фискальную регистрацию кассовой операции (печать чека с названием, количеством и ценой товара).




Поделиться с друзьями:


Дата добавления: 2014-12-27; Просмотров: 690; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.