10. Проектное задание. Найдите в Интернете частоты встречаемости русских букв (в процентах). Предложите неравномерный код, который при кодирова-нии русского текста даст более короткое сообщение, чем код Морзе. Для удобства расположите буквы в таблице по уменьшению частоты встре-чаемости.
Буква
Частота
Код
Буква
Частота
Код
Буква
Частота
Код
Выделите цветным фоном буквы, которым вы присвоили кодовые слова длиной в 1 знак, 2 знак и т.д.
Сколько букв имеют кодовые слова длиной 1 знак?
2 знака? 3 знака? 4 знака? 5 знаков?
Вот таблица с частотами встречаемости русских букв:
Буква Частота (%)
а 8.01
о 7.37
е 7.18
и 6.47
н 6.35
т 5.61
с 5.38
р 4.75
в 4.32
л 4.04
к 3.49
м 3.21
д 2.98
п 2.81
у 2.62
я 2.01
ы 1.90
ь 1.74
г 1.70
з 1.65
б 1.59
ч 1.37
й 1.33
х 1.26
ж 0.94
ш 0.73
ю 0.64
ц 0.47
щ 0.36
э 0.32
ф 0.26
ъ 0.04
Расположим буквы в таблице по уменьшению частоты встречаемости:
Буква Частота (%) Код
а 8.01 -
о 7.37 -
е 7.18 -
и 6.47 -
н 6.35 -
т 5.61 -
с 5.38 -
р 4.75 -
в 4.32 -
л 4.04 -
к 3.49 -
м 3.21 -
д 2.98 -
п 2.81 -
у 2.62 -
я 2.01 -
ы 1.90
ь 1.74
г 1.70
з 1.65
б 1.59
ч 1.37
й 1.33
х 1.26
ж 0.94
ш 0.73
ю 0.64
ц 0.47
щ 0.36
э 0.32
ф 0.26
ъ 0.04
Теперь давайте предложим неравномерный код, с помощью которого длина кодовых слов будет зависеть от частоты встречаемости букв. Для этого возьмем первую половину букв с самыми высокими частотами и присвоим им кодовые слова длиной в 1 знак. Вторую половину букв с ниже частотами мы будем кодировать кодовыми словами длиной в 2 знака.
Буква Частота (%) Код
а 8.01 1
о 7.37 2
е 7.18 3
и 6.47 4
н 6.35 5
т 5.61 6
с 5.38 7
р 4.75 8
в 4.32 9
л 4.04 10
к 3.49 11
м 3.21 12
д 2.98 13
п 2.81 14
у 2.62 15
я 2.01
ы 1.90
ь 1.74
г 1.70
з 1.65
б 1.59
ч 1.37
й 1.33
х 1.26
ж 0.94
ш 0.73
ю 0.64
ц 0.47
щ 0.36
э 0.32
ф 0.26
ъ 0.04
Мы выделили цветным фоном буквы, которым присвоили кодовые слова длиной в 1 и 2 знака для удобства. Теперь осталось ответить на вопрос сколько букв имеют кодовые слова длиной 1 знак, 2 знака, 3 знака, 4 знака и 5 знаков.
Буквы с кодовыми словами длиной в 1 знак: а, о, е, и, н, т, с, р, в, л (10 букв).
Буквы с кодовыми словами длиной в 2 знака: к, м, д, п, у, я (6 букв).
Буквы с кодовыми словами длиной в 3 знака: ы, ь, г, з, б, ч, й, х (8 букв).
Буквы с кодовыми словами длиной в 4 знака: ж, ш, ю, ц (4 буквы).
Буквы с кодовыми словами длиной в 5 знаков: э, ф, ъ (3 буквы).
Таким образом, мы использовали коды различной длины в зависимости от частоты встречаемости букв, что позволило создать более короткое сообщение, чем код Морзе.