Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Основы работы с программой FineReader

ABBYY FineReader позволяет ввести документ одним нажатием на кнопку Scan&Read, не вдаваясь в подробности работы программы. Распознанный текст можно передать в текстовый редактор или электронную таблицу, сохранить в форматах RTF, DOC, Word XML (при сохранении в Microsoft Office 2003), PDF и HTML с полным сохранением оформления документа или передать в базу данных.

Программа работает на основе системы оптического распознавания символов (Optical Character Recognition – OCR) предназначеной для автоматического ввода печатных документов в компьютер.

ABBYY FineReader – омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы ABBYY FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии «целостного целенаправленного адаптивного распознавания».

Процесс ввода документа в компьютер можно подразделить на два этапа:

1 Сканирование. На первом этапе сканер играет роль «глаза» Вашего компьютера: «просматривает» изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе.

2 Распознавание. Обработка изображения OCR-системой.

Остановимся на втором шаге более подробно. Обработка изображения системой ABBYY FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Как уже упоминалось, распознавание изображения осуществляется на основе технологии «целостного целенаправленного адаптивного распознавания».

- целостность – объект описывается как целое с помощью значимых элементов и отношений между ними;

- целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез;

- адаптивность – способность OCR-системы к самообучению.

В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки. Следуя принципу адаптивности, программа самостоятельно «настраивается», используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма.

В результате работы в окне ABBYY FineReader появится распознанный текст, который Вы можете отредактировать и сохранить в наиболее удобном для Вас формате.

Сканирование.

ABBYY FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями. При этом возможно два варианта взаимодействия программы со сканерами через TWAIN-драйвер:

- через интерфейс ABBYY FineReader: в этом случае для настройки опций сканирования используется диалог программы ABBYY FineReader «Настройки сканера»;

- через интерфейс TWAIN-драйвера сканера: для настройки опций сканирования используется диалог TWAIN-драйвера сканера.

Особенности каждого из режимов.

В режиме «Использовать интерфейс TWAIN-драйвера сканера», как правило, доступна функция предварительного просмотра изображения (preview), позволяющая точно задать размеры сканируемой области, подобрать яркость, тут же контролируя результаты этих изменений. Диалог TWAIN-драйвера у каждого сканера выглядит по-своему, в большинстве случаев все надписи даются на английском языке. Вид этого окна и смысл опций описан в документации, прилагаемой к сканеру. В режиме. «Использовать интерфейс ABBYY FineReader» доступны такие опции, как возможность сканирования в цикле на сканерах без автоподатчика, сохранение опций сканирования в отдельный файл набора опций (*.fbt) и возможность использования этих опций в других пакетах.

Вы можете легко переключаться между этими режимами: на закладке Сканировать/Открыть диалога Опции (меню Сервис>Опции) установите переключатель в одно из положений: Использовать интерфейс TWAIN-драйвера сканера или Использовать интерфейс ABBYY FineReader.

Замечания:

- для некоторых моделей сканеров опция Использовать интерфейс ABBYY FineReader может быть по умолчанию отключена (недоступна);

- чтобы в режиме Использовать интерфейс ABBYY FineReader показывался диалог Настройки сканера, на закладке Сканировать/Открыть (Сервис>Опции) отметьте пункт «Запрашивать опции» перед началом сканирования.

Важно! Для того чтобы правильно подключить сканер, обратитесь к документации, прилагаемой к сканеру. При установке не забудьте установить необходимое программное обеспечение, поставляемое вместе со сканером (драйвер TWAIN и/или сканирующую программу).

Чтобы запустить сканирование: Нажмите кнопку «Сканировать» или в меню «Файл» выберите пункт «Сканировать изображение». Спустя некоторое время в главном окне программы ABBYY FineReader появится окно «Изображение» с «фотографией» отсканированной страницы.

Если вы хотите отсканировать несколько страниц, то на закладке «Сканировать/Открыть» (Сервис>Опции) отметьте пункт «Сканировать несколько страниц».

В случае если сканирование не началось сразу, показывается один из следующих диалогов:

- встроенный TWAIN-диалог сканера. Установите параметры сканирования и нажмите кнопку Scan (Final и так далее, название кнопок зависит от конкретной модели сканера);

- диалог «Настройки сканера». Установите параметры сканирования и нажмите кнопку Scan (Final и так далее, название кнопок зависит от конкретной модели сканера).

ABBYY FineReader отсканирует и распознает изображения. В главном окне программы появятся окно «Изображение» с «фотографией» отсканированной страницы и окно «Текст» с результатом распознавания. Распознанный текст вы можете передать во внешние приложения или сохранить в одном из поддерживаемых форматов.

Установка параметров сканирования.

Качество распознавания во многом зависит от того, насколько хорошее изображение получено при сканировании. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.

Основными параметрами сканирования являются:

- тип изображения – серый (256 градаций), черно-белый или цветной. Сканирование в сером является оптимальным режимом для системы распознавания. В случае сканирования в сером режиме осуществляется автоматический подбор яркости. Черно-белый тип изображения обеспечивает более высокую скорость сканирования, но при этом теряется часть информации о буквах, что может привести к ухудшению качества распознавания документов среднего и низкого качества печати. Если вы хотите, чтобы содержащиеся в документе цветные элементы (картинки, цветные буквы и цветной фон) были переданы в электронный документ с сохранением цвета, необходимо выбрать цветной тип изображения. В других случаях используйте серый тип изображения.

- разрешение – используйте 300 dpi для обычных текстов (размер шрифта 10 и более пунктов) и 400-600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов).

- яркость – в большинстве случаев подходит среднее значение яркости порядка 50%. Для сканирования некоторых документах в черно-белом режиме может понадобиться дополнительная настройка яркости.

Замечание. Сканирование с разрешением 400-600 dpi вместо 300 dpi или сканирование в сером или в цвете может занять существенно больше времени, чем сканирование в черно-белом режиме. На некоторых моделях сканеров сканирование с разрешением 600 dpi занимает в 4 раза больше времени, чем сканирование с разрешением 300 dpi.

При сканировании через TWAIN с использованием интерфейса ABBYY FineReader: на закладке Сканировать/Открыть в диалоге Опции (меню Сервис/Опции) щелкните по кнопке «Настройки сканера» и в открывшемся диалоге Настройки сканера установите нужные опции.

При сканировании через TWAIN с использованием интерфейса TWAIN-драйвера сканера для установки параметров сканирования используется диалог сканера, который открывается автоматически при нажатии на кнопку «Сканировать».

 

<== предыдущая лекция | следующая лекция ==>
Распознавание текстов. Принцип работы сканирующих устройств | Преобразование документов в электронную форму
Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 3112; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.