Пусть рассматривается алфавит из двух символов русского языка – «К» и «А». Относительная частота встречаемости этих букв равна, соответственно, р1=0,028, р2=0,062. Возьмем произвольное слово длины N из k букв «К» и m букв «А». Какое количество информации содержится в таком слове?
I = -log2(p)
Где:
I - количество информации,
p - вероятность встречаемости символа в сообщении.
В данном случае у нас есть два возможных символа: "К" и "А". Нам даны их относительные частоты встречаемости: р1 = 0,028 и р2 = 0,062.
Сначала необходимо определить вероятности для каждого символа:
p1 = р1/(р1+р2) = 0,028/(0,028+0,062) = 0,028/0,09 = 0,311 (округляем до трех знаков после запятой)
p2 = р2/(р1+р2) = 0,062/(0,028+0,062) = 0,062/0,09 = 0,689
Теперь мы можем приступить к определению информации для каждого символа:
I1 = -log2(p1) = -log2(0,311) ≈ -(-1,737) ≈ 1,737
I2 = -log2(p2) = -log2(0,689) ≈ -(-0,514) ≈ 0,514
Теперь, зная количество символов "К" (k) и "А" (m) в слове длины N, мы можем определить общую информацию, содержащуюся в этом слове:
I_total = ki * I1 + mi * I2
Где ki - количество символов "К" в слове, mi - количество символов "А" в слове. ki + mi = N.
Теперь давайте рассмотрим пример: пусть у нас есть слово длиной 5 символов, состоящее из 2 символов "К" и 3 символов "А".
k = 2
m = 3
N = k + m = 5
Теперь подставим значения в формулу:
I_total = 2 * 1,737 + 3 * 0,514 ≈ 3,474 + 1,542 ≈ 5,016
Таким образом, в данном слове длиной 5 символов, состоящем из 2 символов "К" и 3 символов "А", содержится примерно 5,016 единиц информации.