Page 113 - 4496
P. 113
- Відкидання літер з урахуванням частоти їх появи. В
першу чергу відкидають літери, що мають найбільшу
імовірність появи у тексті, а також найбільш популярні
буквосполучення. Наприклад, в українській мові найбільш
розповсюджені літери О, Е, А, І. Їх слід відкидати в першу
чергу. В українській мові дуже часто після С йде Ь, в
англійській H після T, у французській U після Q. Такі
буквосполучення теж можуть бути відкинуті при стисненні.
- Відкидання спочатку всіх голосних літер, а потім і
приголосних, починаючи з кінця слова, до тих пір, поки
довжина слова перевищує 6 літер. Наприклад:
ВИКОРИСТАННЯ ВКРСТНН ВКРСТН.
Обгрунтуванням використання такого способу є слідуюче:
- доля слів довжиною від 3 до 9 літер складає 84% всієї
лексики;
- інформативність кожної із перших трьох літер слова,
взятого за межами контексту, значно вища інформативності
решти літер;
- інформативність приголосних в українській мові в 6
разів вища інформативності голосних літер.
4.1.4 Постановка у відповідність даним
повідомленням більш коротких
Постановка у відповідність даному повідомленню більш
короткого повідомлення являє собою такий вид стиснення,
коли кожному повідомленню, незалежно від його довжини та
структури, відповідає умовний код, побудова та використання
якого здійснюється за допомогою кодифікаторів, тобто
спеціальних кодових книг, таблиць або словників. Указаний
спосіб є послівним і в багатьох випадках алгоритмічним
способом стиснення і знаходить надзвичайно широке
застосування в автоматизованих системах обробки даних
(АСОД) та в системах передачі даних.
Кодування дат і даних із імен та прізвищ людей
Код дати використовує стислу форму фіксованої
структури. При цьому розташування окремих елементів
110