КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
III. Меры и единицы представления, измерения и хранения информации в компьютереСамостоятельная работа: [1] – стр. 58–61, 714–715; [4] – стр. 74–87 Подход к информации как к мере уменьшения неопределённости наших знаний позволяет количественно измерять информацию, полученную через некоторое сообщение. Клод Шеннон предложил в 1948 году формулу для определения количества информации, которую мы получаем после получения одного из N возможных сообщений ([3] стр.10): I = –(p1log2p1+ p2log2p2+…+ pNlog2pN) Здесь pi – вероятность того, что будет получено именно i-е сообщение. Если все сообщения равновероятны, то все pi=1/N и из этой формулы получается формула Хартли: I = log2N Бит – количество информации, необходимое для различения двух равновероятных сообщений. В вычислительной технике битом называют наименьший элемент памяти, необходимый для хранения одного из двух знаков «0» или «1», используемых для внутримашинного представления данных и команд. Наряду с единицей бит иногда используют в качестве единицы информации количество, взятое по логарифму с другим основанием: дит – по десятичному логарифму, (количество информации, необходимое для различения одного из 10 равновероятных событий), нут (нат, нит?) – по натуральному основанию. Бит очень удобен для использования двоичной формы представления информации. Для каждого типа информации (символьный, текстовый, графический, числовой) был найден способ представить ее в едином виде как последовательности только двух символов. Каждая такая последовательность называется двоичным кодом. Недостаток двоичного кодирования – длинные коды. Но в технике легче иметь дело с большим числом простых однотипных элементов, чем с небольшим числом сложных. Более крупные единицы измерения информации: Байт – 8 бит (или элемент памяти компьютера, состоящий из 8 двоичных элементов) 1 Кб =210байт=1024 байт 1 Мб =210Кбайт=1024 Кбайт=220байт 1 Гб =210Мбайт=1024 Мбайт=230байт 1 Терабайт =210Гбайт=1024 Гбайт=240байт 1 Петабайт =210Тбайт=1024 Тбайт=250байт В компьютерной технике информация хранится в виде файлов на дисках и кодируется в двоичной системе. В частности, каждый символ текста занимает 8 бит памяти. Поэтому в компьютерной технике часто используют не смысловую, а техническую меру измерения объёма информации: чем больше бит она занимает, тем больше информации хранится в компьютере. То есть чем длиннее текст, тем больше информации в нем. Двоичные символы могут кодироваться любым способом: буквами А, Б; словами ДА, НЕТ, двумя устойчивыми состояниями системы и т.д. Однако при записи двоичных кодов ради простоты обычно используют цифры 1 и 0. Способы двоичного кодирования информации разного типа: текстовой, числовой, графической, аудио- и видео-информации рассмотрены в [1] стр. 59–69, [4] стр. 59–69, 107–122. Простые виды данных, с которыми работает ЭВМ. 1. Целые: – ShortInt – отрицательные целые числа в диапазоне -128 – +127 (один байт памяти); 2. Вещественные (по абсолютной величине): – Real – 11-12 значащих цифр от 10-39 до 1038 (6 байт памяти); 3. символьные (один байт памяти) 4. логические (Boolean) _____________________________________________________________________ Способы кодирования целых чисел. Различают прямой, обратный и дополнительный коды (способы кодировки). Для положительных целых чисел прямой, обратный и дополнительный коды одинаковы. Разные коды используют только для отрицательных чисел для того, чтобы заменить операцию вычитания на операцию сложения. Первый бит памяти, отведённой под число, показывает знак числа: 0 – положительное, 1 – отрицательное. Остальные биты отводятся под двоичный код модуля числа. Примеры. В прямом коде 12710 → 0111 11112; –12710 → 1111 1111; 110→ 0000 00012 –110 → 1000 00012 В обратном коде все двоичные цифры, кроме знака, инвертируют (заменяют 0 → 1, 1 → 0). Примеры. –12710 → 1111 11112 → 100000002; –110 → 1000 00012 → 1111 11102. Дополнительный код получают из обратного кода целого отрицательного числа, добавляя к младшему разряду 12. Примеры. –110 →1111 11112; –12710 → 1000 00012 Кодирование вещественных чисел [1] – стр. 65; [4] – стр. 103–107. Кодирование текстовой информации [1] – стр. 62–65; [4] – стр. 107–111. Кодирование графической, аудио- и видеоинформации [1] – стр. 65–69, 714–715; [4] – стр. 111–119. _____________________________________________________________________ Таблицы кодировок Байт может смоделировать 28 = 256 различных состояний. Эти состояния перенумерованы, и каждому сопоставляется какой-либо буквенный символ или графический элемент, необходимый при оформлении текстовой информации. Такое соответствие между состояниями байта и символами, которым они соответствуют, называется кодовойтаблицей. В настоящее время применяются разные варианты кодовых таблиц. Наиболее распространённые: ASCII – American Standart Code for Information Interchange – американский стандартный код для обмена информацией; КОИ8-Р – Код Обмена Информацией 8-битный с кириллицей; CP1251 – (Code Page) – кодировка с кириллицей в Microsoft Windows; CP866 – кодировка MSDOS; ISO 8859-5 – International Standards Organization – Международная организация по стандартизации. Ещё один стандарт для кодов для кириллицы. Множество кодовых таблиц вызвано тем, что с учетом разнообразия естественных языков и фирм, выпускающих программное обеспечение, 256 состояний одного байта недостаточно для того, чтобы закодировать все встречающиеся символы и способы форматирования текста. При разработке всех кодовых таблиц использовано следующее соглашение: первая половина таблицы – это коды с 0 по 127 – интернациональна, то есть, одинакова во всех вариантах кодировок. Первые 33 состояния (0–32) – это коды операций с текстом (перевод на новую строку, пробел, удаление последнего символа и т. п.). Затем состояния с 33 по 127 – это коды знаков препинания, арифметических действий, цифр, прописных и строчных букв латинского алфавита. Вторая половина кодовых таблиц отводится под знаки национальных и специальных алфавитов и ввода в текст графических элементов для оформления таблиц. В конце 90-х годов появился новый международный стандарт Unicode, который отводит под символ 2 байта. Каждый блок из 2-х байт может находиться в 216 =65536 состояниях. Этого достаточно, чтобы в одной таблице собрать символы большинства алфавитов мира. Правда, длина текста удваивается, и скорость его обработки замедляется. Но, в связи с существенным увеличение памяти и быстродействия современных компьютеров, этим можно пренебречь. ______________________________________________________________ Примеры тестовых задач 1) Отсортировать по возрастанию последовательность текстовых величин: 8б; 8а; 10а; 10б; 11а Ответ: так как в кодовой таблице цифры идут в следующей последовательности: 0, 1, 2, …9, а буквы располагаются после цифр, то после сортировки по возрастанию тексты располагаются так: 10а; 10б; 11а; 8а; 8б. 2) Упорядочить по убыванию последовательность чисел: 10 бит, 20 бит, 2 байта. Ответ: 20 бит, 2 байта, 10 бит. 3) Какой объём памяти потребуется для кодировки фразы «Я помню чудное мгновенье» в Unicode и в коде ASCII? Ответ: при подсчете количества символов в фразе следует учитывать не только буквы, но и пробелы. Код пробела занимает столько же места, как и код буквы. Получается 24 символа. В Unicode на один символ отводится 2 байта (16 бит). То есть текст займет 24*2 байта = 48 байт = 48 байт*8 бит = 384 бит. В коде ASCII на каждый символ отводится 1 байт (8бит). Следовательно, памяти нужно в 2 раза меньше. ---------------------------------------------------------------------------------------------------------------- При создании автоматизированных средств перекодирования данных (принтеры, дисплеи и т.п.) встает вопрос о стандартизации правил кодирования. Сегодня наибольшее распространение получил стандарт кодирования данных ASCII (American Standart Code for Information Interchange). Этот стандарт используется на компьютерах с текстовым режимом работы устройств отображения (печатные машинки, дисплеи с теневыми масками) и использует специальные «буквы» для изображения таблиц. Для использовании графических устройств отображения данных (растровые (матричные) принтеры, дисплеи) создан стандарт ANSI, в котором для изображения таблиц используется горизонтальная или вертикальная «засветка» точек. Оба стандарта позволяют задавать правила кодирования только двух алфавитов. Для автоматизации настройки набора воспроизводимых символов введено понятие «кодовая страница» – номер правил кодирования букв национальных алфавитов. Так, например, 866 страница содержит правила кодирования русских (кириллических) шрифтов в ASCII, а 1251 – в ANSI. Этот номер передается специальной программе - знакогенератору, настраивающей набор отображаемых символов. Для преодоления ограничений на количество кодируемых с помощью одного байта состояний (256) разработан стандарт UNICOD, в котором для перекодировки букв используется 2 байта. -------------------------------------------------------------------------------------------------------
Дата добавления: 2014-01-07; Просмотров: 1889; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |