Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Программа OCR типа CuneiForm 2.0

9.3.

Интеллектуальная система оптического распознавания символов (Optical Character Recognition, OCR) Cuneiform функционирует в среде Microsoft Windows 3.1 или более поздней версии. Контекстно-зависимая справочная система CuneiForm поддерживается стандартной системой помощи Windows. Система обладает следующими технологическими возможностями:

  • поддерживает широкий спектр настольных сканеров;
  • распознает отсканированную страницу (включая многоколонный текст и текст со сложным оформлением);
  • позволяет сканировать и записывать изображение как TIFF, а распознавание запускать потом (при этом удобно сканировать пачку документов);
  • имеет ассортимент возможностей по записи файлов, позволяющий сканировать серию страниц, причем программа будет осуществлять автозапись, присваивая изображениям последовательные имена (Page1, Page2, и т.д.);
  • может читать изображения, отсканированные другими программами, и факсы в режимах Fine и Normal;
  • отделяет текст от графики и преобразует его из графического образа в текстовый файл для одного из текстовых процессоров, баз данных или электронных таблиц;
  • имеет функцию «Определить область распознавания», что позволяет выборочное распознавание в отобранных частях страницы;
  • распознает буквы русского и английского алфавитов, исключая стилизованные шрифты типа готических букв;
  • распознает все широко используемые шрифты (включая полужирное и курсивное начертания, а также подчеркнутый шрифт), которые могут быть смешаны внутри страницы, даже внутри параграфа или слова;
  • может обрабатывать документы, отпечатанные типографски, на LQ и NLQ матричных принтерах, струйных, лазерных принтерах, на печатной машинке (допустимы и моноширинная, и пропорциональная печать);
  • может сохранять первоначальные форматирование и табуляцию и регулировать отступы и выравнивание;
  • имеет внутренний текстовый редактор и словарный контроль, с помощью которых можно контролировать качество распознавания и редактировать текст. Для этого окно встроенного редактора показывает распознанный текст с выделением сомнительных символов и слов, отсутствующих в словаре. В расположенном рядом окне расширения можно видеть увеличенное изображение отсканированного текста, позволяющее производить редактирование, не заглядывая в оригинальный документ;
  • не распознает рукописный текст.

Экран Сuneiform содержит четыре основные части, отмеченные на рисунке.

Основными действиями (процедурами) при работе в системе являются следующие:

Кнопка панели Выполняемая функция
Сканирование и Распознавание Кнопка "Сканирование и Распознавание" будет полезна, если есть уверенность, что оформление документа достаточно просто и не осложнит распознавание текста (для более сложной фрагментации полезна операция "Отсканировать и показать"). При нажатии кнопки в панели быстрого доступа (или вызове команды ДействиеСканирование и распознавание) появляется окно-сообщение, дающее знать, что происходит сканирование. Далее, поле "Прогресс-индикатор" показывает текущую фазу символьного распознавания, а также общую долю выполненного распознавания в процентах. Нажатие кнопки эквивалентно выполнению команд "Отсканировать и показать" и далее "Распознавание".
Открыть образ Позволяет загрузить изображение из имеющегося графического файла (кнопкой или командой ФайлОткрыть образ). В появляющемся окне необходимо выбрать имена директория и файла.
Сканировать и показать Позволяет отсканировать документ и просмотреть его (кнопкой или командой ДействиеСканирование и показ), не запуская при этом символьного распознавания. Немедленно начнется сканирование, и окно изображения отсканированного изображения появится в правой части экрана.
Распознавание Используется в случае запуска (кнопкой или командой ДействиеРаспознавание) символьного распознавания после выполнения действия "Отсканировать и посмотреть" или после загрузки файла.
Яркость Позволяет установить оптимальный уровень яркости для сканирования документа (кнопкой или командой Дей-ствие Яркость). CuneiForm предлагает 256 градаций яркости (0-255). По умолчанию ее значение равно 127. Если возникает много ошибок в распознавании из-за того что отсканированное изображение слишком светлое, нужно установить меньшую яркость и пересканировать документ. Если изображение слишком темное, необходимо установить большую яркость. Уровень яркости можно изменить следующим образом: а) передвигая вправо и влево ползунок по шкале; б) выставляя значение яркости автоматически. Для этого нажимают кнопку "Автоматически" в поле "Настройка яркости". Появится небольшое диалоговое поле, предлагая: "Выберите левую кнопку мыши для выбора яркости или нажмите Отмена." При перемещении курсора по изображению, он примет форму лампочки с перекрестием рядом. Далее нужно навести перекрестие в ту часть изображения, что имеет среднюю плотность символов или затемненность, а затем нажать кнопку мыши. Функция автоматической яркости обследует область вокруг выбранной оператором точки с целью определить общую установку яркости. Далее будет предложено при желании пересканировать страницу, используя новое значение яркости. Если выбрать "Да", то документ будет пересканирован. Это должно улучшить точность при повторном запуске распознавания. Можно также вызвать окно "Настройка яркости", выбрав пункт "Яркость" в меню "Действие". Независимо от того, где он установлен, текущий уровень яркости всегда отображается в левом конце статусной строки снизу экрана.
Предыдущий образ Действие выполняется нажатием кнопки или командой ФайлВосстановить предыдущий образ, чтобы вернуть последнее изображение, которое было на экране в этот сеанс работы.
Склейка страницы Используется, если есть необходимость отсканировать ручным сканером (у которого окно захвата меньше размера страницы) полный лист. По нажатию кнопки или командой ДействиеСклейка страниц вызывается процесс обработки правой или верхней частей страницы в соответствии с выбранным способом склейки. Сначала вызывается TWAIN-диалог работы со сканером и сканируется соответствующая часть страницы, а затем запускается процесс распознавания. Вся цепочка действий автоматически повторяется для следующей части страницы. Следующим этапом происходит склейка этих двух распознанных частей в единый текст.

Статусная строка может включать в себя следующие основные элементы, установленные внутри главного меню: (см. рисунок).

Окно Расширения предназначено для отображения части отсканированного изображения при большем увеличении. Это окно появляется на экране, когда возникает необходимость более тщательного просматривания фрагмента. Окно вызывается в меню ВидРасширение. Увеличение в окне расширения управляется выбором меню ВидОдин к одному, 200% или 400% увеличения. Место, в котором окно Расширения появляется на экране, зависит от того, в результате каких действий оно возникло:

  • если оно вызвано по месту расположения курсора после использования «Сканировать и Показать» или после открытия файла, то оно возникнет в левой нижней части экрана;
  • если оно появляется вместе с окном «Редактор» после распознавания, то его положение зависит от оформления экрана, выбранного из меню «Окно»;
  • окно расширения можно перемещать по экрану, двигая его в режиме Drag and Drop.

Окно Ручная фрагментация используют, когда распознаваемый документ имеет сложную структуру, состоящую из более, чем одной колонки текста и/или графики.

В обычном режиме после сканирования CuneiForm автоматически фрагментирует и раскладывает изображение на блоки, которые рассматриваются как связанные, осмысленные куски текста и окружаются пунктиром при отображении в режиме «Фрагментация». Однако текстовый блок является просто набором символов и не всегда составляет законченный смысловой фрагмент.

Из-за того, что программа основывает свое разделение на промежутках, а не анализирует контекстную информацию, она не может идеально оценить, какой текст является связанным. Окно «Ручная фрагментация» обеспечивает несколько способов дополнительного создания блоков, когда автоматическая фрагментация неточна.

Режим «Фрагментация» существует как раз для исправления ошибок, сделанных в процессе автоматической фрагментации перед распознаванием. В рассматриваемом случае выбирают меню ОпцииФрагментация. При этом слово «Фрагм.» появляется справа в линии статуса. Окно «Ручная фрагментация» появится позже, после сканирования документа или вызова его из графического файла.

Помимо автоматически помеченных блоков, окно включает в себя колонку кнопок, выстроенных вдоль его левой стороны:

Кнопка Выполняемая функция
Выполнить Обеспечивает переход к выполнению распознавания после необходимых действий по фрагментации
Возврат Повтор Позволяют вернуться на один шаг и переделать последнее проделанное действие
Текст Позволяет выделить блок, содержащий, например, все части таблицы так, чтобы они слились в один фрагмент. Для этого после нажатия кнопки нужно обозначить прямоугольник вокруг выбранной области курсором. В результате создается новый блок, который при распознавании рассматривается как одно целое
Гориз. Верт. Позволяют обозначить дополнительную фрагментацию по горизонтали или вертикали. Для этого достаточно после выбора кнопки поместить курсор в нужное место и в режиме drag обозначить границу фрагментации соответственно по горизонтали или вертикали
Склеить Позволяет "склеить" фрагменты, созданные с использованием кнопок "Гориз." и "Верт.". Для этого достаточно пометить курсором склеиваемые фрагменты и выбрать кнопку "Склеить"
Удалить Позволяет удалить помеченные с помощью кнопки Текст фрагменты из процесса распознавания
Увелич. Позволяет увеличить фрагмент текста в окне "Ручная фрагментация". Для этого достаточно после выбора кнопки зафиксировать курсор в нужном месте текста и щелкнуть кнопкой мыши
Не увел. Позволяет вернуть увеличенный фрагмент текста в исходное состояние. Для этого достаточно после выбора кнопки зафиксировать курсор в выбранном месте и щелкнуть левой кнопкой мыши
Рисунок Позволяет создать новую картинку
Помощь Позволяет вызвать на экран справочную информацию об использовании кнопок управления ручной фрагментацией

Дополнительные возможности исправления ошибочного разделения на блоки в окне «Ручная фрагментация»:

  • горизонтальное разделение;
  • вертикальное разделение;
  • cклеивание.

Пусть в документе есть две колонки текста, но CuneiForm этого «не видит». Напротив, он сливает две колонки в один блок. Так как далее это может привести к проблемам в распознавании, необходимо разделить колонки по блокам:

  • нажать «Верт.» в левой части окна «Фрагментация»;
  • поместить курсор там, где предполагается начать разделение;
  • при нажатой и удерживаемой клавише мыши протащить курсор туда, где разделение должно кончиться;
  • отпустить кнопку.

CuneiForm разделит блок вертикально на два текстовых фрагмента (функция «Разделить Горизонтально» производит те же действия над текстом, который должен быть разделен горизонтально).

В некоторых случаях CuneiForm может автоматически разделить слитный кусок текста на фрагменты. Чтобы выправить это разбиение, необходимо нажать курсором на каждый из фрагментов и нажать кнопку «Склеить». Два фрагмента будут объединены в один блок.

В окне Редактор сверху находится простое меню из пяти кнопок: «Выход», «Сохранить как...», «Присоединить к...», «След. сомнительное» и «Добавить слово». С их помощью при использовании окна редактирования удобно выполнять ряд процедур.

Окно «Редактор» содержит результат распознавания. После распознавания окно редактирования накрывает изображение в окне изображения. Текст, выбираемый пользователем в окне редактирования, синхронизируется с изображением в окне расширения. При перемещении курсора в окне редактирования изображение в окне расширения сдвигается соответственно новой позиции курсора, и выбранный символ подсвечивается

Ошибки, допущенные в процессе распознавания, можно редактировать в одном из текстовых процессоров впоследствии или, используя меню «Редактор» и кнопки окна редактирования. В последнем случае с помощью меню ВидНастройки можно для удобства редактирования подобрать размер символов, отображающихся на экране.

Для выполнения редактирования предусмотрен ряд дополнительных удобств:

  • возможность осуществить автоматизированную проверку орфографии после выбора меню ОпцииСловарный контроль (при этом так называемые сомнительные, т.е. отсутствующие в словаре слова, высвечиваются на экране);
  • быстрое перемещение при словарном контроле с помощью кнопки «След. сомнит.» к очередному отсутствующему в словаре слову;
  • возможность открытия и использования словаря пользователя, импортируемого в меню ФайлДинамический словарь Загрузить... или Импорт...;
  • возможность добавления к словарю пользователя высвеченного при проверке, но правильного слова с помощью нажатия кнопки «Добавить слово»;
  • возможность экспорта пользовательского словаря в меню ФайлДинамический словарьВыгрузить... или Экспорт... после его использования или пополнения.

После окончания редактирования удобно сохранить результат, нажав кнопки «Сохранить как...» или «Присоединить к...» сверху окна или через соответствующий пункт меню «Файл».

Меню команд программы СuneiForm

Меню, команда Выполняемое действие
ФАЙЛ
Открыть образ считать изображение из файла следующих форматов: TIFF 5.0, PCX, BMP, GIF, TARGA, JPEG
Восстановить пред. образ получить отсканированное и хранящееся в памяти изображение для выбора новой области распознавания (если нужно)
Запомнить образ записать изображение в формате TIFF 5.0
Открыть ED файл открыть файл с распознанным ранее текстом
Запомнить в текст записать распознанный текст в файлах определённого формата, например, ASCII, Smart ASCII, RTF, ANSI, Smart ANSI
Склеить с текстом добавить распознанный текст в конец существующего текстового файла
Выбрать из TWAIN списка выбрать сканер для использования под TWAIN-интерфейсом
Получить TWAIN образ использовать доступ к изображению через TWAIN
Динамический словарь использовать словарь пользователя
Распознающий модуль загрузить/выгрузить распознающий модуль
Выход выйти из Cuneiform
РЕДАКТОР
След. сомнительный перейти к следующему сомнительному слову
Пред. сомнительный перейти к предыдущему сомнительному слову
Отмечать сомнительные слова вкл./выкл. режим подсвечивания сомнительных слов
Поиск искать строки символов в распознанном тексте
Поиск след повторить поиск
Добавить слово легализовать слово и внести его в список
Отменить добавление сделать слово сомнительным и удалить его из списка

/

Имеется также возможность по использованию панели управления сверху окна редактирования, coстоящей из нескольких кнопок: Выход, Сохранить как..., Присоединить к..., След. сомнит. и Добавить слово/

Меню команд программы СuneiForm

Меню, команда Выполняемое действие
ДЕЙСТВИЕ
Пакетное сканирование сканировать серию страниц. В появившемся окне имеется пять основных полей: Oпции, Запоминание страницы, Cоздать документ с числом страниц, Изменять, Выходной формат. Имеется возможность по-разному комбинировать их значения в зависимости от того, имеется ли у сканера автоподатчик (feeder), нужно ли запускать распознавание перед записью, контролировать область распознавания и т.д.
Пакетное распознавание включить распознавание серии страниц. Функции полей Oпции, Изменять и Результаты идентичны соответствующим функциям в пакетном сканировании
Сканирование и Распознавание использовать сканирование и aвтоматическое распознавание документа — обычно в том случае, если оформление документа достаточно просто и не осложнит распознавание текста (для более сложной фрагментации очень полезна операция Сканирование и показ)
Cканирование и показ отсканировать документ и просмотреть его, не запуская прежде символьного распознавания. Отсканированное изображение появится в правой части экрана
Выбор языка выбрать один из возможных языков: русский (возможен русско-английский режим), английский, немецкий и французский
Склейка страницы включить режим использования ручного ска­нера с окном захвата, меньшим, чем размер страницы. При этом вызывается процесс обработки правой или верхней частей страницы в соответствии с выбором способа склейки
Распознать запустить символьное распознавание после выполнения режима Сканирование и показ или после загрузки файла с изображением
Область распознавания запустить режим распознавания какой-либо части изображения. Область вокруг необходимой части изображения обозначается с помощью мыши
Поворот повернуть изображение, появившееся на экране после сканирования или загрузки файла, на 90° влево (вправо) или на 180°
Выбор сканера выбрать тип сканера
Разрешение выбрать разрешение 200, 300 или 400 точек на дюйм (DPI)
Яркость установить оптимальный уровень яркости для сканирования документа. CuneiForm пред­лагает 256 градаций яркости (0–255). По умолчанию ее значение равно 127
ОПЦИИ
Фрагментация выделить фрагменты в случае, когда документ, предназначенный для сканирования, имеет явно сложное оформление и состоит из более чем одной колонки с текстом и/или графикой
Одна колонка настроить CuneiForm для обработки всех символов отсканированного изображения как одной колонки текста
Словарный контроль включить режим, при котором CuneiForm подсветит сомнительные слова, с которыми нужно разобраться после распознавания документа
Адаптивное Сканирование использовать все средства CuneiForm для получения наилучшего возможного изображения
Матричный принтер выбрать режим, чтобы CuneiForm распознавал документы, отпечатанные на матричном принтере
Ориентация страницы выбрать одну из четырех возможных ориентаций: Обычная страница, Страница, повернутая влево, Перевернутая страница и Страница, повернутая вправо. Если выбранная ориентация отличается от обычной, Cunei­Form поворачивает все открытые или отсканированные образы. Текущая ориентация отображается пиктограммой в левом конце статусной строки
Способ склеивания выбрать перед использованием команды Склейка страниц один из способов склеивания страницы: Вертикальный или Горизонтальный. При первом сначала будет обрабатываться левая половина страницы, а затем правая. Во втором случае — верхняя, а затем нижняя часть страницы
Иллюстрации задать режим сохранения иллюстрации вместе с текстом, как это было в исходном документе, используя формат RTF и оговаривая один из типов имеющихся иллюстраций: черно-белые, полутоновые, цветные
ВИД
Просмотр страницы · в размер окна · один к одному · 200% · 400% включить/выключить окно изображения задать режим "В размер окна" для окна изображения задать режим без увеличения для окна изображения задать увеличение в 2 раза для окна изображения задать увеличение в 4 раза для окна изображения
Расширение · один к одному · 200% · 400% включить/выключить oкнo расширения задать режим без увеличения для окна расширения задать увеличение в 2 раза для окна расширения задать увеличение в 4 раза для окна расширения
Настройки редактора установить размер букв и представления плохо распознанных символов в окне редактирования
ОКНА
Горизонтальное деление разделить экран горизонтально, так что Окно редактирования занимает верхнюю часть экрана, а Окно расширения — нижнюю
Вертикальное деление разделить экран вертикально, так что Окно редактирования находится слева, а справа — Окно расширения
Наилучший показ дать доступ к контрольной панели CuneiForm в верхнем левом углу экрана. Окно редактирования занимает правую половину экрана, а Окно расширения — левую нижнюю четверть
Показ по настройке восстановить оформление экрана, записанное при помощи следующей опции меню
Запомнить настройку зафиксировать результат перенастройки оформления экрана, выаполненной, например, с использованием стандартных процедур MS Windows
<== предыдущая лекция | следующая лекция ==>
Редактирование блоков | Программы электронного перевода текста
Поделиться с друзьями:


Дата добавления: 2014-01-15; Просмотров: 589; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.022 сек.