2.2 Работа с научным текстом, частотный анализ, построение кода
Для примера был выбрана статья из энциклопедии «Новейшая энциклопедия рыбалки». Ссылка на нее также есть в источниках литературы. Стоит заметить, что была взята не вся статья, а лишь ее часть. Общее число слов 25376. Все расчеты проведены с использованием формул из предыдущего пункта.
Ниже приведена гистограмма рисунок 2.
Рисунок 2 – Гистограмма для научного текста
Из рисунка 2 видно, что наиболее часто встречаемая буква «О», а реже всего встречается буква «Ё».
В таблице 2 приведено построение кода Шеннона – Фано.
Таблица 2 – Построение кода Шеннона – Фано
Буква |
Кол-во |
Частота |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
Код |
о |
16100 |
1,033177 |
0 |
0 |
0 |
0 |
|
|
|
|
0 0 0 0 |
е |
12859 |
0,825194 |
0 |
0 |
0 |
1 |
|
|
|
|
0 0 0 1 |
и |
11107 |
0,712764 |
0 |
0 |
1 |
|
|
|
|
|
0 0 1 |
а |
10406 |
0,667779 |
0 |
1 |
0 |
0 |
|
|
|
|
0 1 0 0 |
н |
9503 |
0,609831 |
0 |
1 |
0 |
1 |
|
|
|
|
0 1 0 1 |
т |
9452 |
0,606558 |
0 |
1 |
1 |
0 |
|
|
|
|
0 1 1 0 |
с |
7576 |
0,486171 |
0 |
1 |
1 |
1 |
|
|
|
|
0 1 1 1 |
р |
7349 |
0,471604 |
1 |
0 |
0 |
0 |
0 |
|
|
|
1 0 0 0 0 |
в |
6614 |
0,424437 |
1 |
0 |
0 |
0 |
1 |
|
|
|
1 0 0 0 1 |
л |
6497 |
0,416929 |
1 |
0 |
0 |
1 |
|
|
|
|
1 0 0 1 |
к |
5727 |
0,367516 |
1 |
0 |
1 |
0 |
0 |
|
|
|
1 0 1 0 0 |
м |
4669 |
0,299621 |
1 |
0 |
1 |
0 |
1 |
|
|
|
1 0 1 0 1 |
п |
4436 |
0,284669 |
1 |
0 |
1 |
1 |
|
|
|
|
1 0 1 1 |
д |
4188 |
0,268754 |
1 |
1 |
0 |
0 |
0 |
0 |
|
|
1 1 0 0 0 0 |
у |
3611 |
0,231727 |
1 |
1 |
0 |
0 |
0 |
1 |
|
|
1 1 0 0 0 1 |
ы |
3354 |
0,215235 |
1 |
1 |
0 |
0 |
1 |
|
|
|
1 1 0 0 1 |
я |
3108 |
0,199448 |
1 |
1 |
0 |
1 |
0 |
0 |
|
|
1 1 0 1 0 0 |
б |
2474 |
0,158763 |
1 |
1 |
0 |
1 |
0 |
1 |
|
|
1 1 0 1 0 1 |
ч |
2306 |
0,147982 |
1 |
1 |
0 |
1 |
1 |
|
|
|
1 1 0 1 1 |
з |
2162 |
0,138741 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
|
1 1 1 0 0 0 0 |
ь |
2144 |
0,137586 |
1 |
1 |
1 |
0 |
0 |
0 |
1 |
|
1 1 1 0 0 0 1 |
г |
1867 |
0,11981 |
1 |
1 |
1 |
0 |
0 |
1 |
|
|
1 1 1 0 0 1 |
х |
1846 |
0,118462 |
1 |
1 |
1 |
0 |
1 |
0 |
|
|
1 1 1 0 1 0 |
й |
1598 |
0,102548 |
1 |
1 |
1 |
0 |
1 |
1 |
|
|
1 1 1 0 1 1 |
ж |
1386 |
0,088943 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
|
1 1 1 1 0 0 0 |
ю |
1239 |
0,07951 |
1 |
1 |
1 |
1 |
0 |
0 |
1 |
|
1 1 1 1 0 0 1 |
щ |
788 |
0,050568 |
1 |
1 |
1 |
1 |
0 |
1 |
|
|
1 1 1 1 0 1 |
ш |
748 |
0,048001 |
1 |
1 |
1 |
1 |
1 |
0 |
0 |
|
1 1 1 1 1 0 0 |
ц |
507 |
0,032535 |
1 |
1 |
1 |
1 |
1 |
0 |
1 |
|
1 1 1 1 1 0 1 |
э |
400 |
0,025669 |
1 |
1 |
1 |
1 |
1 |
1 |
0 |
0 |
1 1 1 1 1 1 0 0 |
ф |
324 |
0,020792 |
1 |
1 |
1 |
1 |
1 |
1 |
0 |
1 |
1 1 1 1 1 1 0 1 |
ъ |
51 |
0,003273 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
0 |
1 1 1 1 1 1 1 0 |
ё |
1 |
6,42E-05 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 1 1 1 1 1 1 1 |
Средняя длина получилась: 43,06757364;
Энтропия: 11,52031456;
Избыточность кода: 0,732506069;
Эффективность кода: 0,267493931;
Вектор Крафта получился равный единице.