КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Поняття про надлишковість повідомлень
Як відмічалося раніше, максимальну ентропію має повідомлення, що складається з рівноймовірних і статистично незалежних символів H max = log m = -log P. (10.15) Якщо між символами послідовності повідомлення є ймовірнісні зв'язки, то джерело повідомлення не використовує максимально можливу при даному алфавіті m ентропію. У цьому випадку говорять, що джерело повідомлень має надлишковість. Надлишковість - це наявність будь-яких властивостей джерела, коду, сигналу, каналу зв'язку або всієї системи, що перевищують деякий мінімум, необхідний для представлення або передачі необхідного повідомлення. Наприклад, якщо каналом зв'язку передається надлишковий сигнал, то канал при цьому використовується неефективно, тому що інформація передається не з максимально можливою швидкістю. Надлишковістю повідомлення з обсягом алфавіту m називається величина, що показує, яка частина максимально можливої при цьому алфавіті ентропії не використовується . (10.16) Тексти і мовлення різними мовами мають велику надлишковість, тому що не всі можливі комбінації букв алфавіту використовуються для складання слів і не всі комбінації слів мають значення. Наявність надлишковості припускає у відомих межах можливість відновлення повідомлення, спотвореного завадою. Так, наприклад, виправляється частково спотворений текст телеграми завдяки кореляції слів і букв у словах. При передачі смислового тексту через наявність зв'язків між буквами можна виключити прийменники, сполучники, розділові знаки, тому що вони легко можуть бути відновлені при читанні, виходячи із загальної побудови фраз, за відмінковими закінченнями і тощо. Усунення надлишковості дозволяє скоротити об’єм сигналу і за рахунок цього підвищити швидкість передачі. Проте, при цьому під впливом завад стає неможливим усунення помилок у такому повідомленні. Тому часто надлишковість вводять штучно для підвищення достовірності (наприклад, у коригувальних кодах). Статистична структура джерела (у нашому прикладі мови) визначається спільними ймовірностями або умовними ймовірностями , тобто статистикою різноманітних сполучень окремих елементів. Повідомлення в даному випадку є послідовністю елементів, імовірність появи кожного з яких залежить не тільки від даного елемента, але і від попередніх елементів. Такі послідовності відомі в математиці як дискретні кола Маркова. Серед можливих кіл Маркова в теорії зв'язку мають найбільше значення ергодичні кола. Ергодичність означає статистичну однорідність. Якщо процес (джерело) ергодичний, то кожна послідовність, яка утворюється процесом, має однакові статистичні властивості. Якщо джерело ергодичне, то кількість інформації визначається таким граничним переходом , (10.17) де . Якщо всі елементи рівноймовірні . З урахуванням тільки ймовірностей появи окремих елементів одержимо . Очевидно . У додатку 1-3 приведені ймовірності букв для українського, російського й англійського текстів. Це означає, що при наявності зв'язків між буквами частина інформації не є для одержувача неочікуваною. Цю інформацію можна не передавати каналом, вона може бути відновлена на приймальному кінці на підставі статистики тексту. У цьому випадку кількість інформації I = nHn можна передати меншою кількістю елементів , начебто стискуючи текст. При цьому буде передана одна і та ж інформація . Таке стиснення можна здійснити шляхом оптимального кодування. Ефективність системи кодування в цьому випадку можна визначити коефіцієнтом стиснення . (10.18) Тоді . (10.19) Дослідження показують, що надлишковість української мови c дорівнює більш 50%. Це означає, що при кодуванні текст можна стиснути приблизно вдвічі і тим самим підвищити в два рази ефективність передачі тексту каналом. Це можна досягти таким кодуванням, коли враховується достатньо повна статистика повідомлень (тексту). П'ятизначний код Бодо, наприклад, не є оптимальним, тому що в ньому всі комбінації мають однакову тривалість (п'ять символів) і, отже, розрахований на передачу тексту, у якому всі букви рівноймовірні. Надлишковість визначає, наскільки добре в джерелі повідомлень використовуються можливі елементи повідомлення. Чим менша надлишковість, тим більш раціонально працює джерело, тобто більшу кількість інформації воно виробляє. Процес усунення взаємозв'язку між символами повідомлення (надлишковості) називають декореляцією. У теорії електрозв'язку є системи, у яких здійснюється усунення надлишковості. Принцип роботи схеми заснований на виключенні з переданої інформації тієї її частини, що може бути передбачена і, отже, не містить нової інформації. Очікуване значення повідомлення може бути з визначеною ймовірністю передбачено за попередніми значеннями.
Дата добавления: 2014-01-07; Просмотров: 8353; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |