Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Измерение информации

Юникод. UTF-8

Теоретически давно существует решение этих проблем. Оно называется Unicode (Юникод). Unicode – это кодировочная таблица, в которой для кодирования каждого символа используется 2 байта, т.е. 16 бит. На основании такой таблицы может быть закодировано N=216=65 536 символов.

Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, греческую, грузинскую, деванагари, иврит, кириллицу, коптскую, кхмерскую, латинскую, тамильскую, хангыль, хань (Китай, Япония, Корея), чероки, эфиопскую, японскую (катакана, хирагана, кандзи) и другие.

С академической целью добавлены многие исторические письменности, в том числе: древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.

В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.

Для символов кириллицы в Юникоде выделено два диапазона кодов:

Cyrillic (#0400 — #04FF)

Cyrillic Supplement (#0500 — #052F).

Но внедрение таблицы Unicode в чистом виде сдерживается по той причине, что если код одного символа будет занимать не один байт, а два байта, то для хранения текста понадобится вдвое больше дискового пространства, а для его передачи по каналам связи – вдвое больше времени.

Поэтому сейчас на практике больше распространено представление Юникода UTF-8 (Unicode Transformation Format). UTF-8 обеспечивает наилучшую совместимость с системами, использующими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 4 байтов. В целом, так как самые распространенные в мире символы – символы латинского алфавита - в UTF-8 по-прежнему занимают 1 байт, такое кодирование экономичнее, чем чистый Юникод.

 

 

 

При хранении и передаче информации с помощью технических устройств информацию следует рассматривать как последовательность символов - знаков (букв, цифр, кодов цветов точек изображения и т.д.).

Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).

Тогда, если считать, что появление символов в сообщении равновероятно, количество возможных событий N можно вычислить как N=2i .

Количество информации в сообщении I можно подсчитать, умножив количество символов K на информационный вес одного символа i.

Итак, имеются формулы, необходимые для определения количества информации в алфавитном подходе:

N=2i i Информационный вес символа, бит
  N Мощность алфавита
I=K*i K Количество символов в тексте
  I Информационный объем текста

Возможны следующие сочетания известных (Дано) и искомых (Найти) величин:

 

Тип Дано Найти Формула
  i N N=2i
  N i  
  i,K I I=K*i  
  i,I K  
  I, K i  
  N, K I Обе формулы  
  N, I K  
  I, K N  

 

 

Задача 1. Один символ алфавита «весит» 4 бита. Сколько символов в этом алфавите?

Решение:

Дано:

i =4 По формуле N=2i находим N=24, N =16
Найти: N -?  

Ответ: 16

Задача 2. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?

Решение:

Дано:

i =8 По формуле N=2i находим N=28, N =256
Найти: N -?  

Ответ: 256

Задача 3. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?

Решение:

Дано:

N =32 По формуле N=2i находим 32= 2i, 25= 2i, i =5
Найти: i -?  

Ответ: 5

Задача 4. Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?

Решение:

Дано:

N =100 По формуле N=2i находим 32= 2i, 25= 2i, i =5
Найти: i -?  

Ответ: 5

 

 

Литература:

1. Информатика:учебник. Под ред.Н.Макаровой –М.:Финансы и статистика, 2000, 768с.

2. Симонович В.С. Информатика базовый курс:Учебник –М.:Питер, СПб,2000 – Пресс, 2000, 680с.

3. Симонович В.С. Информатика для экономистов и юристов:Учебник – М.:Питер, СПб, 2000-Пресс, 2000, 680с.

4. Операционная система Windows 95. Для программиста –М.: ДИАЛОГ-МИФИ, 1996.-288с.

Вернуться в Подготовку к семинару

 

Вернуться в Подготовку к практическому

<== предыдущая лекция | следующая лекция ==>
 | Предмет и основные проблемы дифференциальной психофизиологии
Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 1411; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.011 сек.