Page 145 - 4496
P. 145
мови значно менша ніж 4,7 біт і без урахування
взаємозалежності між словами становить приблизно 2,35 біт.
Якщо ж урахувати дійсну частоту появи літер у текстах,
різних сполученнях і слів у різних повідомленнях, то
інформацію, що передається, можна значно скоротити,
стиснути. Коефіцієнт ущільнення інформації визначається
виразом
К уш=Н/Н max,
а надмірність — виразом
(4.5)
R над=1- К уш=1- Н/Н max
Із (4.5) випливає, що для зменшення надмірності
повідомлення необхідно збільшити ентропію первинного
алфавіту. Для англійської мови
. 2 35
R над=1- 1 5 . 0 5 . 0 ,
7 . 4
тобто можна відновити зміст англійських текстів, складених з
50 % алфавіту.
До видів статистичної надмірності алфавітів належать
такі поняття, як надмірність іR над зв, зумовлена статистичним
зв'язком між елементами повідомлення, та надмірність R налр,
спричинена нерівноймовірним розподілом елементів у
повідомленні.
Надмірність R над зв вказує на інформаційний резерв
повідомлень із взаємозалежними елементами відносно
повідомлень, які мають статистичний зв'язок між елементами:
R над зв=1- Н/Н'
де Н= - p (a i ) p (b j / a i ) log p (b j / a i ) ,
i j
Н'= - p log p i
i
i
Тут Н' теж має надмірність через нерівномірний
розподіл імовірностей окремих елементів алфавіту.
Надмірність Н над р вказує на інформаційний резерв
повідомлень, елементи яких нерівноймовірні:
R над р =1- Н/Н max,
де Н max =logq·
142