КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Основные операции с данными и их характеристики
Данные – диалектическая составная часть информации. Они представляют собой зарегистрированные сигналы. В соответствии с методом регистрации данные могут храниться и транспортироваться на носителях различных видов. Самым распространенным носителем данных является бумага. На бумаге данные регистрируются путем изменения оптических характеристик ее поверхности. Любой носитель можно характеризовать параметром разрешающей способности (количеством данных, записанных в принятой для носителя единице измерения) и динамическим диапазоном (отношением амплитуд максимального и минимального регистрируемых сигналов). От этих свойств носителя нередко зависят такие свойства информации, как полнота, доступность и достоверность. Обработка и преобразование данных различных форматов являются важнейшими задачами, как общей информатики, так и её прикладных ветвей. Обработка данных включает в себя множество различных операций (рис. 1.11). Приведенный список операций с данными не является исчерпывающим. Важно другое: работа с информацией может иметь огромную трудоемкость, что и определяет актуальность задачи автоматизации приведенных операций. С развитием средств связи и вычислительной техники и их использованием для передачи и обработки информации возникла необходимость найти методы измерения количественных характеристик информации. В настоящее время для измерения количества информации существуют два подхода. Первый подход основан на определении «физического объема» информации: Физический объем информации – это длина представляемого текста. Информационная емкость – количество передаваемой информации. Компактность – соотношение информационного и физического объемов. Информационная плотность – соотношение информационной емкости и информационного объема. Единицами измерения объемов нормативного текста могут быть: количество статей в нормативно – правовом акте, число типографских страниц, которые занимает изучаемый нормативный акт, число фраз, содержащихся в данном акте, и т. д. Второй подход основан на положениях теории информации, разработанной американским ученым К. Шенноном. Здесь фундаментальное значение имеют два понятия: неопределенность и энтропия. Неопределенность – это отсутствие информации о системе и ее состояниях. Следовательно, понятия информации и неопределенности тесно связаны и дополняют друг друга. Чем более увеличивается знание об исследуемом событии или явлении, тем меньше становится неопределенность. Информация в сообщении приобретает смысл только тогда, когда состояние исследуемой системы «случайно» (неопределенно, неизвестно). Полученные сведения о событиях или явлениях тем ценнее и содержательнее, чем больше была неопределенность о них до получения этих сведений. Энтропия – это количественная мера неопределенности. При получении сведений об объекте мера неопределенности уменьшается. Величина, на которую уменьшилась энтропия, и есть количество полученной информации. Для рассмотрения формулы К. Шеннона примем следующие обозначения: Н0 (х) – энтропия случайной величины до получения сообщения; Н1 (х) – энтропия случайной величины после получения сообщения о ее состоянии (остаточная энтропия); Н (х) – разность величин Н1 (х) и Н0 (х). Тогда количество информации может быть представлено в следующем виде: Н (х) = Н0 (х) – Н1 (х). К. Шеннон предложил знаменитую формулу для измерения энтропии Н(х) = – Рi * log Рi, (1.1) где: Н (х) – символ энтропии; х – исследуемое случайное событие (явление); Рi – вероятность реализации i – го элемента сложного явления (i = 1… n); п – число состояний системы; – знак суммы; 1оg Рi – логарифм вероятности отдельно взятого элементарного события. В данной формуле логарифм (показатель степени, в которую нужно возвести некоторое число - основание, чтобы получить данное) используется с целью удобства при выполнении математических действий (сложения, вычитания и др.) над различными величинами, получаемыми в результате измерения информации. Рассчитываемая таким образом мера неопределенности случайного события может принимать значения от 0 до 1 включительно. Формула К. Шеннона позволяет ввести единицу информации. За единицу информации принято считать такое количество информации, которое содержится в исходе опыта (сообщения), когда за возможные принимаются только два состояния (1 или 0). При этом каждое состояние может быть реализовано с одинаковой вероятностью. Приведем элементарный расчет. Условия: Р1 = Р2 = 0,5; n = 2. Подставляем эти данные в формулу Шеннона, получаем: H(х) = – [0,5 ×log 1/2 + 0,5 ×log 1/2]= – [0,5×(– 1) + 0,5×(– 1)] = 1. Полученная единица количества информации, представляющая собой выбор из двух равновероятных событий, получила название двоичной единицы, или бита. Для радиоэлектронных элементов (радиоламп, полупроводниковых элементов, конденсаторов), которые в основном использовались и используются в вычислительных машинах, характерно наличие двух устойчивых состояний. Например, электронная лампа может быть «открыта» (тогда через нее идет ток) или «заперта» (ток через нее не проходит). По тому же принципу «да» или «нет» работают и полупроводниковые элементы, которые сейчас уже полностью вытеснили радиолампы из вычислительной техники. Эти свойства радиоэлектронных элементов и служат основной причиной применения в вычислительной технике двоичной системы счисления. В двоичной системы счисления числа записываются с помощью двух цифр 0 и 1 и называются двоичными. Система перевода данных в двоичные числа называется двоичным кодированием. Битом называется такое количество информации, которое можно представить одноразрядным двоичным числом (0 или 1). Часто используются и другие, более крупные единицы измерения информации, например: В компьютере один знак текста требует объем памяти, равный одному байту. Стандартный лист формата А4 содержит примерно 3200 знаков размера 12 пунктов. Это примерно 3 Кб. Таким образом, на жестком диске компьютера объемом 20 гигабайт может храниться примерно 60 – 70 миллионов таких страниц. Одной из важнейших операций, проводимых с данными, является их транспортировка. В большинстве случаев транспортировка производится по каналам связи, которые создавались для передачи аналоговых электрических сигналов (речевых сообщений). Цифровая информация также передается по этим каналам, но она предварительно преобразуется в аналоговый сигнал с помощью различных видов модуляции. Виды сигналов в каналах связи и с выхода компьютера представлены на рисунке 1.12, где по горизонтальной оси отложено время, по вертикальной – амплитуда сигналов. Для измерения скорости передачи цифровых данных применяется единица измерения бит/сек (количество передаваемых бит в секунду). В среднем, при передаче данных каждым десяти символам соответствует один символ машинописного текста. Часто скорость передачи данных измеряют в символах в секунду (обозначается CPS – от английского Character Per Second).
Дата добавления: 2014-12-27; Просмотров: 1047; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |