Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
тик.docx
Скачиваний:
14
Добавлен:
29.06.2023
Размер:
57.47 Кб
Скачать

2.2 Работа с научным текстом, частотный анализ, построение кода

Для примера был выбрана статья из энциклопедии «Новейшая энциклопедия рыбалки». Ссылка на нее также есть в источниках литературы. Стоит заметить, что была взята не вся статья, а лишь ее часть. Общее число слов 25376. Все расчеты проведены с использованием формул из предыдущего пункта.

Ниже приведена гистограмма рисунок 2.

Рисунок 2 – Гистограмма для научного текста

Из рисунка 2 видно, что наиболее часто встречаемая буква «О», а реже всего встречается буква «Ё».

В таблице 2 приведено построение кода Шеннона – Фано.

Таблица 2 – Построение кода Шеннона – Фано

Буква

Кол-во

Частота

1

2

3

4

5

6

7

8

Код

о

16100

1,033177

0

0

0

0

 

 

 

 

0 0 0 0

е

12859

0,825194

0

0

0

1

 

 

 

 

0 0 0 1

и

11107

0,712764

0

0

1

 

 

 

 

 

0 0 1

а

10406

0,667779

0

1

0

0

 

 

 

 

0 1 0 0

н

9503

0,609831

0

1

0

1

 

 

 

 

0 1 0 1

т

9452

0,606558

0

1

1

0

 

 

 

 

0 1 1 0

с

7576

0,486171

0

1

1

1

 

 

 

 

0 1 1 1

р

7349

0,471604

1

0

0

0

0

 

 

 

1 0 0 0 0

в

6614

0,424437

1

0

0

0

1

 

 

 

1 0 0 0 1

л

6497

0,416929

1

0

0

1

 

 

 

 

1 0 0 1

к

5727

0,367516

1

0

1

0

0

 

 

 

1 0 1 0 0

м

4669

0,299621

1

0

1

0

1

 

 

 

1 0 1 0 1

п

4436

0,284669

1

0

1

1

 

 

 

 

1 0 1 1

д

4188

0,268754

1

1

0

0

0

0

 

 

1 1 0 0 0 0

у

3611

0,231727

1

1

0

0

0

1

 

 

1 1 0 0 0 1

ы

3354

0,215235

1

1

0

0

1

 

 

 

1 1 0 0 1

я

3108

0,199448

1

1

0

1

0

0

 

 

1 1 0 1 0 0

б

2474

0,158763

1

1

0

1

0

1

 

 

1 1 0 1 0 1

ч

2306

0,147982

1

1

0

1

1

 

 

 

1 1 0 1 1

з

2162

0,138741

1

1

1

0

0

0

0

 

1 1 1 0 0 0 0

ь

2144

0,137586

1

1

1

0

0

0

1

 

1 1 1 0 0 0 1

г

1867

0,11981

1

1

1

0

0

1

 

 

1 1 1 0 0 1

х

1846

0,118462

1

1

1

0

1

0

 

 

1 1 1 0 1 0

й

1598

0,102548

1

1

1

0

1

1

 

 

1 1 1 0 1 1

ж

1386

0,088943

1

1

1

1

0

0

0

 

1 1 1 1 0 0 0

ю

1239

0,07951

1

1

1

1

0

0

1

 

1 1 1 1 0 0 1

щ

788

0,050568

1

1

1

1

0

1

 

 

1 1 1 1 0 1

ш

748

0,048001

1

1

1

1

1

0

0

 

1 1 1 1 1 0 0

ц

507

0,032535

1

1

1

1

1

0

1

 

1 1 1 1 1 0 1

э

400

0,025669

1

1

1

1

1

1

0

0

1 1 1 1 1 1 0 0

ф

324

0,020792

1

1

1

1

1

1

0

1

1 1 1 1 1 1 0 1

ъ

51

0,003273

1

1

1

1

1

1

1

0

1 1 1 1 1 1 1 0

ё

1

6,42E-05

1

1

1

1

1

1

1

1

1 1 1 1 1 1 1 1

Средняя длина получилась: 43,06757364;

Энтропия: 11,52031456;

Избыточность кода: 0,732506069;

Эффективность кода: 0,267493931;

Вектор Крафта получился равный единице.