Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Программа FineReader 4.0

9.2.

9.1.

Прикладное программное обеспечение КИС

9.

Прикладные программы предназначены для выполнения определенных функциональных задач компьютерных издательских систем (например, для обработки текста, математических, структурных химических формул, нотной продукции, таблиц, векторной и растровой графики, макетирования и верстки публикаций), а также для выполнения ряда служебных задач.

Программы оптического распознавания символов

Ввод информации с бумаги в компьютер является в настоящее время часто выполняемой задачей. До недавнего времени эта задача решалась исключительно путем кодирования с клавиатуры компьютера. Большинство документов, подлежащих обработке, представлены в оригиналах на бумажном носителе. Поэтому неотъемлемой частью любой системы автоматизации делопроизводства являются компьютерные системы, включающие программы сканирования и оптического распознавания образов документов. Задача распознавания состоит в том, чтобы преобразовать входное (отсканированное) изображение в текст из подвижных символов. Иными словами графическое изображение каждого входного символа заменяется обозначением этого символа, используемым в компьютере (т.е. кодом, понятным компьютерной системе).

Системы оптического распознавания символов (OCR - Optical character recognition) стали неотьемлемой частью интегрированных пакетов, поддерживающих ввод в компьютер, хранение и обработку бумажных и электронных документов. Система включает в свой состав сканер для ввода информации.

Работа сканеров основана на принципах функционирования фотомножительных устройств:

  • изображение, считываемое сканером, хранится в электронном виде;
  • сканер не может отличать текст от рисунков и представляет их в виде отдельных графических фрагментов из черных и белых элементов.

Если созданное сканером изображение содержит текст и рисунки, то при помощи специальной программы оптического распознавания текста (OCR) можно:

  • отделить текст от рисунков;
  • записать этот текст в формате файла текстового процессора.

Программное обеспечение в современных системах OCR выполняет анализ форм букв и создание текстового файла, в который распознаваемый текст записывается посимвольно с последовательным формированием слов и предложений.

Основные технологические требования к OCR при использовании компьютерных издательских систем:

  • умение распознавать начало и конец отдельных символов, поскольку сам сканер лишь оцифровывает изображение и, кроме того, многие шрифты являются пропорциональными;
  • возможность работать с большим диапазоном гарнитур, кеглей, начертаний шрифтов, которые могут использоваться при полиграфическом оформлении документа;
  • возможность работать с оригиналами различного качества (в том числе созданными типографским способом или на лазерном принтере);
  • возможность распознавать многоколонный текст;
  • возможность распознавать текст, имеющий в состае таблицы и рисунки;
  • достаточно высокая достоверность распознавания (не менее 90-96 %).

Существует два типа пакетов OCR: обучаемые и интеллектуальные. Первые пакеты оптического распознавания символов имели четкое разделение по типу. В последнее время наблюдается тенденция к объединению этих двух типов в одном пакете, что перекликается с попытками разработать принципиально новые алгоритмы распознавания.

В случае обучаемых систем происходит поточечное сравнение оцифрованного символа с образцом в справочной таблице. Оно осуществляется путем наложения масок символов на символ из считанного документа и проверки на полное сов­падение. Как только совпадение достигается, символ добавляется в файл. В процессе распознавания символа при наложении маски размеры шрифта документа и маски должны быть одинаковыми. Это означает, что необходимо иметь маски для каждого размера шрифта и что система оказывается более эффективной в случае однотипного текста. С учетом этих ограничений, при разрешающей способности сканера 300 dpi обеспечивается достаточная точность обработки для того ограниченного набора шрифтов, который система “знает”,. В случае интеллектуальной системы — более мощном методе преобразования считанного документа в текстовый файл — программа самостоятельно идентифицирует каждый оцифрованный символ. Здесь маска символа заменяется на его контур. Такой эталонный контур может быть использован для любых размеров шрифтов. Стандартная система, основанная на этом методе, может распознавать несколько тысяч шрифтов. Поскольку такие системы не пользуются фиксированными масками, не возникает проблем, связанных с совпадением одной маски с несколькими разными символами. Кроме определения сим­вола по контуру система выполняет ряд перекрестных проверок полученного текста.
Число известных системе шрифтов обычно невелико — около десятка. Однако достоинство подобных систем в том, что они предоставляют пользователю возможность обучать их новым гарнитурам. Обучение — довольно длительный процесс, а, кроме того, впоследствии при сравнении шрифтов возможна путаница, вызванная наличием у некоторых символов дополнительных графических элементов типа умляутов, трема и седилей. Среди многих методов наиболее распространенными являются следующие два. Первый метод заключается в частотном анализе текста. Сравнивается частота появления символа в тексте с его частотой в языке оригинала. Второй метод позволяет обнаружить неправильное сочетание символов, исходя из правил орфографии. Очевидно, что для эффективной реализации этого необходимо настроить систему на конкретный язык, на котором написан документ.

Обучаемые пакеты программ OCR составляли большинство первых разработок. Такие пакеты теоретически способны обучаться распознаванию любых символов любых гарнитур. Для обучения программы конкретной гарнитуре нужно отсканировать эталонное изображение с последующим обучением каждому конкретному символу. Это довольно длительная процедура, однако, если данная гарнитура будет затем регулярно использоваться, стоит потратить пару часов на обучение. Программы такого типа сравнивают каждый отдельный символ страницы с символами в справочных таблицах, созданных в процессе обучения, составляя при этом текстовый файл. Это означает, что можно улучшить работу такой программы, обучив ее всему набору символов используемых в документе гарнитур. Поскольку программа теперь будет знать форму каждого символа, уменьшается вероятность ошибки из-за минимальной работы по угадыванию формы.

Интеллектуальные пакеты OCR не нуждаются в обучении и могут интерпретировать формы символов независимо от используемой гарнитуры. Работа этих программ производит большое впечатление: документ пропускается через сканер, результат обрабатывается интеллектуальной программой OCR с выдачей текстового файла. Для страницы формата А4 вся процедура занимает немногим более одной минуты. При высокой точности это значительно быстрее ручного ввода.

Интеллектуальный пакет за одну минуту позволяет отсканировать и распознать текст объемом 1200 символов. При этом созданный текстовый файл содержит обычно не более двух неверных символов — достоверность распознавания порядка 99.83%. Среди недостатков таких пакетов следует отметить следующее. Поскольку некоторые из них не могут обучаться чтению конкретных гарнитур, отсутствие надлежащей гибкости может не позволить им распознать гарнитуры необычного вида.

Конечный результат работы пакета OCR независимо от его типа представляет собой файл формата ASCII (или ANSI), а в ряде случаев даже отформатированный файл для таких популярных текстовых процессоров, как Microsoft Word. Новейшие программы позволяют сэкономить время, записывая текст нескольких последовательных страниц в один файл. Кроме того, использование сканера с механизмом автоматической подачи отдельных листов позволяет организовать непрерывный ввод многостраничного документа.

Качество работы программ OCR зависит от ряда основных факторов:

  • необходимо максимально хорошее качество оригинала. В случае некачественных изображений интеллектуальные пакеты попытаются сделать что-то, но результат вас не впечатлит. Обучаемые же программы в большинстве случаев просто не сработают;
  • для достижения лучших результатов необходимо оцифровывать изображения с разрешением порядка 600-800 точек на дюйм, что позволяет с высокой точностью определять края символов и существенно облегчает программе OCR распознавание формы отдельных букв;
  • необходимо использовать высокопроизводительное оборудование. В процессе оптического распознавания символов создаются большие массивы данных. Для успешной работы программ OCR нужен мощный компьютер с большим объемом оперативной и дисковой памяти, что подразумевает вместе со стоимостью программного обеспечения немалые затраты;
  • при необходимости вводить большие объемы текста, отпечатанного необычной гарнитурой, предпочтительно использовать обучаемый пакет.

FineReader 4.0 - это система оптического распознавания текстов (OCR), которая преобразует полученное с помощью сканера графическое изображение (картинку) в текст (т.е. в коды букв, «понятные» системе).

Процесс ввода текстов в компьютер осуществляется в несколько этапов:

  • сканирование;
  • выделение блоков на изображении;
  • распознавание;
  • проверка ошибок;
  • сохранение результата распознавания (передача его в другое приложение, в буфер и т.п.).

Перечисленные действия можно выполнить:

  • с помощью кнопок 1-5;
  • с помощью одной кнопки «Мастер ScanRead...».

Кнопки, управляющие основными действиями программы, расположены на инструментальной панели ScanRead находятся. Цифры на кнопках указывают порядок выполнения действий для получения электронной версии бумажного документа:

  • сканирование (1);
  • сегментация (2);
  • распознавание (3);
  • проверка результатов (4);
  • сохранение или экспорт во внешнее приложение (5).

Крайняя левая кнопка Scan/OpenRead может выполнять действия:

  • 1-2-3 (в режиме ScanRead - для бумажных документов);
  • 2-3 (в режиме OpenRead - для электронных изображений).

Работа, выполняемая по нажатию на кнопку (2) или (3) зависит от того, какое окно активно, а также есть ли в окне Пакет выделенные страницы:

  • действие этих двух кнопок распространяется на открытую страницу, если активно окно Изображение;
  • действие по умолчанию применяется к выделенным изображениям, если в окне Пакет выделено больше одной страницы;
  • кнопки работают для всех необработанных страниц (т.е. страниц без блоков или нераспознанных), если выделена только одна страница или не выделено ни одной.

Режим работы кнопок можно изменить, нажав на стрелку справа от кнопки и выбрав нужную команду.

<== предыдущая лекция | следующая лекция ==>
Программа просмотра шрифтов FontLister | Этап сканирования
Поделиться с друзьями:


Дата добавления: 2014-01-15; Просмотров: 677; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.007 сек.