Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МиСОИ - Метод. вказівки до лаб. робіт.doc
Скачиваний:
34
Добавлен:
25.03.2015
Размер:
2.56 Mб
Скачать

Порядок виконання роботи

  1. Відкрийте документи, запропоновані викладачем для розпізнавання. Ці файли сканувалися з різною роздільною здатністю. (100, 150, 200, 300, 400, 600 dpi). Таким чином, у нас буде можливість визначити мінімальну достатню роздільну здатність для сканування документів, надрукованих різними кеглями шрифтів для подальшого розпізнавання.

  2. Вивчіть структуру файлу, визначте (за значеннями узятим в дужках в кінці кожного абзацу) висоту символів в кожній ділянці тексту, яка використовувалася при виведенні на друк.

  3. Розпізнайте текст в кожному з файлів (див. теоретичні відомості).

  4. Зробіть висновок про середню кількість помилок при розпізнанні кожного з шрифтових блоків у файлах з різною роздільною здатністю. Заповніть таблицю:

№ з/п

Роздільна здатність зображення, dpi

Розміри шрифту при кількості помилок → 0

Розміри шрифту при кількості помилок → ∞

Зміст звіту

  1. Параметри, які необхідно вказувати під час розпізнавання тексту.

  2. Заповнена таблиця з пункту 4.

  3. Висновок про достатню та недостатню роздільну здатність сканування для різних кеглів шрифтів.

Контрольні питання

  1. 1. Яка роздільна здатність сканування достатня для розпізнавання тексту надрукованого десятий кеглем?

  2. 2. Чи обов'язково в CuneiForm встановлювати мову розпізнавання або вона може вибиратися автоматично?

  3. 3. У чому полягає омніфонтовість OCR?

  4. 4. Перерахуйте основні елементи вікна програми CuneiForm?

  5. 5. Призначення і сфера застосування програм OCR.

Що таке ocr-системи (18)

Системи оптичного розпізнавання символів (Optical Character

Recognition - OCR) призначені для автоматичного введення друкованих документів в комп'ютер. (16)

FineReader — омніфонтова система оптичного розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами без попереднього навчання (14).

Особливістю програми FineReader є висока точність розпізнавання і мала чутливість до дефектів друку, що досягається завдяки застосуванню технології "цілісного цілеспрямованого адаптивного розпізнавання". (12)

Процес введення документа в комп'ютер можна поділити на два етапи:

1. Сканування. На першому етапі сканер відіграє роль "ока" Вашого комп'ютера: "переглядає" зображення і передає його на комп'ютер. При цьому отримане зображення є не чим іншим, як набором чорних, білих або кольорових точок, картинкою, яку неможливо відредагувати в жодному текстовому редакторі.

2. Розпізнавання. Обробка зображення OCR-системою (10).

Зупинимося на другому кроці більш докладно. (9)

Обробка зображення системою FineReader включає в себе аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, картинок, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно пов'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для більш точного аналізу сторінки. (8)

Як уже згадувалося, розпізнавання зображення здійснюється на основі технології "цілісного цілеспрямованого адаптивного розпізнавання".

 Цілісність - об'єкт описується як ціле за допомогою значимих елементів і відносин між ними.

 Цілеспрямованість - розпізнавання будується як процес висування і цілеспрямованої перевірки гіпотез.

 Адаптивність - здатність OCR-системи до самонавчання. (7)

Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об'єкт розпізнавання (символ, частини символу або кілька склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно виявити всі структурні елементи і відносини. що їх пов'язують. У кожному структурному елементі виділяються частини, значимі для людського сприйняття: відрізки, дуги, кільця і крапки. (6)

Виходячи з принципу адаптивності, програма самостійно "налаштовується", використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах. Цілеспрямований пошук і облік контексту дозволяють розпізнавати розірвані і перекручені зображення, роблячи систему стійкою до можливих дефектів листа. (5)

В результаті роботи у вікні FineReader з'явиться розпізнаний текст, який Ви можете відредагувати і зберегти в найбільш зручному для Вас форматі. (4)