Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
OCR_FineReader_11.docx
Скачиваний:
12
Добавлен:
03.05.2019
Размер:
2.31 Mб
Скачать
  1. Система оптического распознавания символов finereader

Лекция 14. СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ FINEREADER 1

1. Технологии перевода бумажных документов  в электронные 1

2. Технологические возможности системы оптического распознавания символов FineReader 4

3. Главное окно и панели инструментов программы FineReader 5

4. Основные этапы процесса ввода документа в компьютер 13

4.1. Сканирование 14

4.2. Анализ макета страницы 16

4.3. Распознавание 17

4.4. Проверка и редактирование текста 17

4.5. Сохранение во внешние редакторы и форматы 20

    1. Технологии перевода бумажных документов в электронные

Большинство документов, подлежащих обработке, представляются на бумажном носителе. Поэтому неотъемлемой частью любой системы автоматизации делопроизводства являются компьютерные системы, включающие программы сканирования и оптического распознавания образов документов. Задача распознавания состоит в том, чтобы преобразовать входное (отсканированное) изображение в текст из подвижных символов. Иными словами графическое изображение каждого входного символа заменяется обозначением этого символа, используемым в компьютере (т. е. кодом, понятным компьютерной системе).

С точки зрения перевода документов в электронный вид их условно делят на формализованные, неформализованные и специальные. Формализованные документы — это документы, в которых заранее определена форма: расположение обязательных полей, в которые заносятся данные, например, бланки, накладные, анкеты, картотеки и т. д. Неформализованные документы — это документы произвольной формы: договоры, письма и т. д. К специализированным относятся такие документы как, например, карты и отпечатки пальцев.

Перевод каждого из перечисленных видов документов имеет свою специфику. Если вводятся фотографии, то достаточно электронного изображения. Если документ содержит текст, его необходимо распознать. Если это форматированный текст, то нужно не только распознать текст, но и восстановить формат документа. Если это анкета, то чаще всего сам документ не нужен, а важна только содержащаяся в нем информация. Например, при обработке листов для голосования достаточно информации о том, за кого отдан голос.

Часто человека просят ввести текст раздельными печатными буквами. Такой текст называют рукопечатным. Технологии распознавания рукопечатных символов обозначаются термином ICR (Intelligent Character Recognition). В этом случае требуется распознать символ, вписанный в форму с учетом возможных его отклонений, обусловленных индивидуальными особенностями почерка.

При вводе форм может потребоваться распознавание различных меток и знаков, например, в бюллетенях для голосования просят поставить крестик или другой знак напротив фамилии кандидата, и задача компьютера — распознать, есть в определенном поле какой-либо знак или текст. Технология распознавания такого документа называется OMR (Optical Mark Recognition).

Технология Data Capture  — комплекс мероприятий по переводу бумажных документов в электронный архив для хранения и обеспечения доступа к ним. Данная технология используется, если наряду с распознаванием текстов имеется масса технологических проблем: организация поточного сканирования, распределенная обработка, встраивание решения в корпоративные системы документооборота и т. д.

Технология OCR (Optical Character Recognition — оптическое распознавание знаков) чаще всего используется для распознавания машинописных авторских оригиналов, для создания банков данных переиздаваемых книг, доступных только в виде предыдущих изданий.

С помощью технологии OCR текст, представленный в рукописной или машинописной форме, преобразуется в цифровую форму и тем самым становится пригодным для обработки. Сначала в «процессе отображения» документа, находящегося на бумаге, осуществляется его ввод оптоэлектронными считывающими системами. В процессе считывания документ сканируется и описывается определенной матричной структурой. Значения яркости и цвета каждой точки матрицы записываются в цифровой форме. Документ предстает в виде битовой карты. В дальнейшем битовая структура знака конвертируется в текстовый код.

Черно-белые документы при сканировании описываются одним битом информации на точку изображения. При сканировании цветных оригиналов с разложением на 4 краски необходимо использовать до 32 бит на точку. Разрешение устройств, осуществляющих сканирование, определяет, насколько точно считанное изображение соответствует оригиналу. Для большинства текстовых оригиналов разрешение 300 dpi (dots per inch — точек на дюйм) позволяет получить высокую надежность распознавания знаков при использовании процессов OCR (кегль шрифта, начиная примерно с 4 мм, в зависимости от четкости начертания элементов шрифта). Иллюстрации и текст, набранный шрифтами малых кеглей, требуют разрешения считывания 600 dpi. Для цифрового представления изображения обычно используют формат TIFF (Tagged-Image File Format).

Процесс OCR охватывает 5 этапов:

  1. идентификация текстовых и иллюстрационных блоков с исключением последних;

  2. распознавание знака при помощи анализа его формы и сравнения с характерными признаками эталона;

  3. идентификация слова с помощью массивов словарей;

  4. корректура нераспознанных слов или знаков путем отображения их на экране с подтверждением или исправлением оператором;

  5. форматирование данных в одном из форматов для вывода, например, ASCII, Word, RTF или PDF, а также запись данных для сохранения.

Доля ошибок оборудования OCR составляет менее 1%.

При загрязнении оригинала, плохо пропечатанных знаках или наличии пятен на оригинале количество ошибок увеличивается. В таких случаях более эффективным может оказаться клавиатурный ввод. Критериями выбора того или иного метода распознавания являются шрифты оригинала, необходимая скорость распознавания, объем и качество словаря, используемые форматы данных и, естественно, цена.

Классификация программ для перевода документов в электронный вид приведена на рис. 14.1. Из отечественных компаний на рынке наиболее активно работают фирмы ABBYY и Cognitive Technologies.

Рис. 14.1. Классификация программ для перевода документов в электронный вид

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]