Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Тема 10. Робота за сканером

Питання самоконтролю до теми 9

1. Що таке алгоритм? У яких формах можна подати алгоритм розв’язування задачі на ЕОМ?

2. Які операції використовують при словесному описі аогоритму?

3. Як записується операція умовного переходу?

4. Що таке блок-схема? Які фігури використовуються при написанні блок-схеми, що вони означають?

5. Що таке оператор?

6. Для чого призначені програми-компілятори?

7. Назвіть основні властивості алгоритмів.

8. Яких правил потрібно дотримуватись при створенні обчислювальних виразів?

9. Що таке розгал у ження?

10. Що таке цикл? Назвіть відмінності між циклом-до та циклом-поки.

11. Які питання слід розглянути на початку створення програми для розв’язування задачі на ЕОМ?

12. Що таке макроси? Яке їхнє призначення?

13. Що таке процедура?

14. Що таке модуль?

 


Розпізнавання та збереження документу у програмі Fine Reader.

Обробка зображення системою FineReader містить аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, картинок, виділення в тексті рядків і окремих символів) і розпізнавання зображення тісно пов’язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаний текст для точнішого аналізу сторінки.

Розпізнавання зображення здійснюється на основі технології цілісного цілеспрямованого адаптивного розпізнавання, створеної на принципах:

цілісності — об’єкт описується як ціле за допомогою значущих елементів і зв’язків між ними;

цілеспрямованості — розпізнавання будується як процес висунення і цілеспрямованої перевірки гіпотез;

адаптивного розпізнавання — здатність OCR-системи до самонавчання.

Відповідно до цих принципів система спочатку висуває гіпотезу про об’єкт розпізнавання (символ, частину символу або декілька склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно знайти всі структурні елементи і пов’язуючі їх відносини. У кожному структурному елементі виділяються частини, значущі для людського сприйняття: відрізки, дуги, кільця і точки. Згідно з принципом адаптивного розпізнавання, програма самостійно налаштовується, використовуючи позитивний досвід, одержаний на перших упевнено розпізнаних символах. Цілеспрямований пошук і облік контексту дають змогу розпізнавати розірвані і спотворені зображення, роблячи систему стійкою до можливих дефектів написання.

Як результат у вікні FineReader з’явиться розпізнаний текст, який можна відредагувати і зберегти в найзручнішому форматі.

Щоб запустити розпізнавання:

• натисніть кнопку 2-Розпізнати на панелі Scan&Read;

• у меню Процес виберіть потрібний для певного моменту пункт Розпізнати щоб розпізнати відкриту сторінку або всі сторінки, виділені у вікні Пакет; Розпізнати все — щоб розпізнати всі нерозпізнані сторінки пакета; Розпізнати блок щоб розпізнати блок або декілька блоків, виділених на зображенні; Завантажити фонове розпізнавання — щоб запустити процес розпізнавання у фоновому режимі.

Зауваження.При розпізнаванні вже розпізнаної сторінки розпізнаються тільки відредаговані та додані блоки.

Типи документів, що найчастіше розпізнаються:

· простий лист;

· документ — текст в одну колонку;

· багатомовний документ;

· книжковий розворот;

· проста таблиця;

· таблиця з неповною кількістю чорних роздільників;

· складна таблиця.

При обробці зображень ABBYY FineReader виконує автоматичну сегментацію (користувач у разі потреби може виконати і ручну сегментацію) зображення — розбиття зображення на окремі блоки: текст, таблиця, картинка, штрих-код.

Текст — блок використовується для позначення тексту, який має містити лише одношпальтовии текст. Якщо всередині тексту містяться картинки, слід виділити їх в окремі блоки.

Таблиця — це блок, який використовується для позначення таблиць або тексту, що має табличну структуру. При розпізнаванні програма розбиває цей блок на рядки і стовпчики і формує табличну структуру. У вихідному тексті цей блок зображується таблицею, яку потім ви можете виділити і відредагувати вручну.

Картинка — блок використовується для позначення картинок і може містити картинку або будьяку іншу частину тексту, яку потрібно передати в розпізнаний текст як картинку.

Штрихкод (тільки у версії Corporate Edition). Цей блок використовується для розпізнавання штрихкодів. Тобто, якщо документ містить штрихкод і його потрібно передати не картинкою, а перевести в послідовність букв і цифр, то необхідно виділити штрих—код в окремий блок і привласнити йому тип Штрих—код.

Режим Розпізнавання з навчанням. Як уже зазначалося, програма FineReader передбачає введення текстів різної якості, надрукованих практично будь-якими шрифтами. Тексти хорошої і середньої якості, а також шрифти звичного зображення розпізнаються без попереднього навчання. Режим Розпізнавання з навчанням використовується для:

1) розпізнавання текстів, у яких використовуються декоративні шрифти;

2) розпізнавання текстів, в яких зустрічаються спеціальні символи (напр., окремі математичні символи);

3) розпізнавання великого обсягу (більше 100 сторінок) тексту поганої якості.

В інших випадках Розпізнавання з навчанням використовувати не рекомендується, оскільки витрати на навчання будуть більші, ніж одержаний результат розпізнавання.

Навчання проводиться при розпізнаванні однієї-двох сторінок тексту в спеціальному режимі. Як результат створюється еталон букв, що зустрічаються в тексті. Цей еталон надалі використовується при розпізнаванні основного обсяг тексту. Деякі пари або трійки символів в тексті можуть склеюватися. Якщо при навчанні не вдається перемістити прямокутник, що описує, так, щоб він укладав у себе один цілий символ і не містив при Цьому частини сусідніх, то ви можете навчити програму поєднанню символів, які неможливо розклеїти. Поєднання двох або трьох символів, що не розділяються, називаються лігатурами. Це, наприклад, такі поєднання, як ед, від, ff, ffi, ffl та ін.

1. Створений еталон можна використовувати тільки для розпізнавання текстів, що використовують той самий шрифт і розмір шрифта, відсканованих із тією ж роздільною здатністю, що і Документ, на базі якого цей еталон створювався.

2. При видаленні пакета еталон також видаляється.

3. Можна зберегти створений еталон для роботи з іншими пакетами. Для цього збережіть настройки пакета у форматі шаблон пакета (*.fbt).

4. При переході до розпізнавання текстів, надрукованих іншим шрифтом, не забудьте відключити еталон (на вкладці Розпізнавання, команди Опції меню Сервіс встановіть перемикач у положення Не використовувати призначений для користувача еталон).

У разі навчання програми декоративним або нестандартним шрифтам (напр., Тибету) і за використання вбудованих еталонів, програма може розпізнати частину символів неправильно, не запропонувавши їх навчити. У цьому випадку рекомендується зняти прапорець опції Використовувати вбудовані етелони — навчання проводитиметься кожному символу.

Розпізнавання у фоновому режимі. Для одночасного редагування і розпізнавання сторінки потрібно запустити розпізнавання у фоновому режимі: в меню Процес виберіть пункт Запустити фонове розпізнавання.

У цьому режимі розпізнавання автоматично поновлюється, як тільки в пакеті з’являються нерозпізнані сторінки.

У режимі роботи розпізнавання у фоновому режимі використовуються опції, встановлені у програмі до запуску фонового розпізнавання.

Мова розпізнавання

FineReader підтримує розпізнавання як одномовних, так і багатомовних (напр., англійсько-французьких) документів. Щоб зазначити мову тексту, який розпізнається, оберіть відповідний рядок у списку Розпізнавання на панелі Стандартна.

Для розпізнавання документа, написаного декількома мовами:

1) у списку мов на панелі Стандартна клацніть кнопку Вибір декількох мов;

2) у діалоговому вікні, що відкриється, зазначте декілька мов (клацніть на пунктах із відповідними назвами мов).

Якщо потрібної мови немає у списку, це означає, що ця мова не підтримується системою FineReader, або ж вилучена зі списку мов, які показуються на панелі Стандартна. У цьому випадку в списку мов на панелі Стандартна виберіть пункт Вибір із загального списку мов і в діалоговому вікні, що відкриється, зазначте необхідну мову.

Щоб підключити/відключити мову списку мов, що відображається: у діалоговому вікні Редактора мов (команда Редактор мов меню Сервіс) виберіть мову, яку ви хочете підключити/відключити, і клацніть на пункті (зніміть прапорець) Показувати у списку мов.

Підтримувані мови розпізнавання

Є два варіанти поставки програми ABBYY FineReader:

• EU–122 мови розпізнавання (латиниця і грецька);

• CyrillicPlus — 177 мов розпізнавання(латиниця, грецька і кирилиця).

У ABBYY FineReader наявні такі групи мов: основні, додаткові, штучні та мови програмування.

Основні мови. До цієї групи мов належать мови зі словниковою підтримкою, для яких забезпечена перевірка розпізнаного тексту (знаходження невпевнено розпізнаних слів і слів з орфографічними помилками).

Група додаткових мов утворена з менш поширених мов світу без словникової підтримки. Якщо словник для мови цієї групи буде встановлений, то вона може перейти у групу основні мови.

До штучних мов належать:

· ідо;

· інтерлінгва;

· окциденталь;

· есперанто.

А також охоплено такі мови програмування:

· Basic;

· C/C++;

· COBOL;

· Fortran;

· JAVA;

· Pascal;

· Прості хімічні формули.

Розпізнаються записи простих (не структурних) хімічних формул.

<== предыдущая лекция | следующая лекция ==>
Процедури | Питання самоконтролю до теми 10
Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 397; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.