Главная Обратная связь

Дисциплины:






Основы работы с программой FineReader



Автоматизация обработки документов

Распознавание текстов. Принцип работы сканирующих устройств.

Основы работы с программой FineReader.

Преобразование документов в электронную форму.

 

Распознавание текстов. Принцип работы сканирующих устройств.

Сканером называется устройство, позволяющее вводить компьютер образы изображений, представленных в виде текста, рисунков, слайдов, фотографий и другой графической информации. Несмотря на обилие различных моделей сканеров в первом приближении их классификацию можно провести всего по нескольким признакам. Например, по кинематическому механизму сканера и по типу вводимого изображения.

В настоящее время все известные модели можно разбить на два типа: ручной и настольный. Существуют и комбинированные устройства, которые сочетают в себе возможности и тех и других.

Для того чтобы ввести в компьютер какой-либо документ при помощи ручного сканера, надо без резких движений провести сканирующей головкой по изображению. Равномерность перемещения handheld существенно сказывается на качестве вводимого изображения. Ширина вводимого изображения обычно не превышает 4дюйма ( 10см ).

Настольные же сканеры позволяют вводить изображения размером 8,5 на 11 дюймов или 8,5 на 14 дюймов. Существует три разновидности настольных сканеров: планшетные, рулонные и проекционные.

Принцип работы ч/б сканера заключается в следующем. Сканируемое изображение освещается белым светом. Отражённый свет через уменьшающую линзу попадает не фоточувствительный полупроводниковый элемент, называемый Прибором с Зарядовой Связью ( ПЗС). Каждая строка сканирования соответствует определённым значениям напряжения на ПЗС. Эти значения напряжения преобразуются в цифровую форму либо через аналогово-цифровой преобразователь АЦП (для полутоновых сканеров ), либо через компаратор ( для двухуровневых сканеров). Разрядность АЦП для полутоновых сканеров зависит от количества поддерживаемых уровней серого цвета. Например, сканер, поддерживающий 64 уровня серого, должен иметь шестиразрядный АЦП.

В настоящее время существует несколько технологий для получения серых и цветных сканируемых изображений. Один из принципов работы цветного сканера заключается в следующем.

Сканируемое изображение освещается через вращающийся RGB-светофильтр или тремя лампами различного цвета.

Для связи с компьютером сканеры могут использовать 8-и или 16-и разрядную интерфейсную плату. Кроме того в настоящее время достаточно широко используются стандартные интерфейсы ( последовательный и параллельный порты, а также интерфейс SCSI ).



 

 

Основы работы с программой FineReader.

ABBYY FineReader позволяет ввести документ одним нажатием на кнопку Scan&Read, не вдаваясь в подробности работы программы. Распознанный текст можно передать в текстовый редактор или электронную таблицу, сохранить в форматах RTF, DOC, Word XML (при сохранении в Microsoft Office 2003), PDF и HTML с полным сохранением оформления документа или передать в базу данных.

Системы оптического распознавания символов (Optical Character Recognition - OCR) предназначены для автоматического ввода печатных документов в компьютер.

ABBYY FineReader — омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы ABBYY FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания".

Процесс ввода документа в компьютер можно подразделить на два этапа:

1. Сканирование. На первом этапе сканер играет роль "глаза" Вашего компьютера: "просматривает" изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе.

2. Распознавание. Обработка изображения OCR-системой.

Остановимся на втором шаге более подробно.

Обработка изображения системой ABBYY FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Как уже упоминалось, распознавание изображения осуществляется на основе технологии "целостного целенаправленного адаптивного распознавания".

· Целостность - объект описывается как целое с помощью значимых элементов и отношений между ними.

· Целенаправленность - распознавание строится как процесс выдвижения и целенаправленной проверки гипотез.

· Адаптивность - способность OCR-системы к самообучению.

В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки. Следуя принципу адаптивности, программа самостоятельно "настраивается", используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма.

В результате работы в окне ABBYY FineReader появится распознанный текст, который Вы можете отредактировать и сохранить в наиболее удобном для Вас формате.

Сканирование

ABBYY FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями. При этом возможно два варианта взаимодействия программы со сканерами через TWAIN-драйвер:

· через интерфейс ABBYY FineReader: в этом случае для настройки опций сканирования используется диалог программы ABBYY FineReader Настройки сканера;

· через интерфейс TWAIN-драйвера сканера: для настройки опций сканирования используется диалог TWAIN-драйвера сканера.





sdamzavas.net - 2020 год. Все права принадлежат их авторам! В случае нарушение авторского права, обращайтесь по форме обратной связи...