Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

III. Повідомлення нового матеріалу




II. Мотивація діяльності.

I. Повідомлення теми та мети заняття.

Хід заняття

Серед усіх прикладних офісних застосувань далеко не останнє місце займають програми автоматичної конвертації текстових документів. Пояснити це досить просто, оскільки навіть в наш час стрімкого розвитку інформаційних технологій ще великий обсяг інформації ми отримуємо на паперових носіях. Для подальшої обробки необхідно конвертувати дану інформацію в електронний вигляд, для подальшого обміну нею – мати інструментальні засоби перекладу, редагування і т.д.

Для цього необхідно принаймі дві речі: сканер (для графічного зчитування інформації в пам'ять комп’ютера) та програму розпізнавання отриманого графічного відбитку в текстовий формат.

План лекції:

1. Системи оптичного розпізнавання (ОСК):

а) системи оптичного розпізнавання інформації та їх призначення;

б) історія розвитку систем оптичного розпізнавання символів.

2. Технічні засоби для роботи з системами оптичного розпізнавання.

3. Функціональні можливості FineReader.

1. а) Системи оптичного розпізнавання (Optical Character Recognition чи, OCR-системы) призначені для автоматичного введення інформації в пам'ять комп'ютера. За нікчемний по історичних мірках відрізок часу ці системи вийшли із стадії експериментальних випробувань і перетворилися на один з самих квапних в комерційному відношенні клас програмних продуктів. Зараз OCR-системы успішно справляються з обробкою друкарських документів, а основним їх завданням є оптичне розпізнавання тексту.

Оптичне розпізнавання тексту (англ. optical character recognition, OCR) — це механічне або електронне переведення зображень рукописного, машинописного або друкованого тексту в послідовність кодів, що використовуються для представлення в текстовому редакторі. Розпізнавання широко використовується для конвертації книг і документів в електронний вигляд, для автоматизації систем обліку в бізнесі або для публікації тексту на веб-сторінці.

Оптичне розпізнавання тексту дозволяє редагувати текст, здійснювати пошук слова або фрази, зберігати його в компактнішій формі, демонструвати або роздруковувати матеріал, не втрачаючи якості, аналізувати інформацію, а також застосовувати до тексту електронний переклад, форматування.

б) Історія розвитку систем опричного розпізнавання символів починається з 20-х років ХХ ст. В 1929 році Густав Таущек отримав патент на метод оптичного розпізнавання тексту в Німеччині, після чого за ним пішов Гендель, отримавши патент на свій метод у США в 1933. В 1935 Таущек також отримав патент США на свій метод. Машина Таущека являла собою механічний пристрій, що використовує шаблони й фотодетектор.

В 1950 році Девід Х. Шепард, криптоаналітик з агентства безпеки збройних сил Сполучених Штатів, проаналізувавши задачу перетворення друкованих повідомлень у машинну мову для обробки комп'ютером, побудував машину, що розв’язує дане завдання. Після того як він отримав патент США, він сповістив про це в «Вашингтон Дейлі Ньюз» (27 Квітня 1951) і в «Нью-Йорк Таймс» (26 грудня 1953). Потім Шепард заснував компанію, що розробляє інтелектуальні машини, що незабаром випустила перші у світі комерційні системи оптичного розпізнавання символів.

Перша комерційна система була встановлена на «Ридерс Дайджест» в 1955 році. Друга система була продана компанії «Стедарт Ойл» для читання кредитних карт для роботи із чеками. Інші системи, що поставляються компанією Шепарда були продані наприкінці 1950-х років, у тому числі сканер сторінок для національних повітряних сил США для читання й передачі телетайпом машинописних повідомлень. IBM пізніше отримала ліцензію на використання патентів Шепарда.

Приблизно в 1965 «Ридерс Дайджест» і «Ар-Сі-Ей» почали співробітництво з метою створити машину для читання документів, що використовує оптичне розпізнавання тексту, призначену для оцифрування серійних номерів купонів «Ридерс Дайджст», що повернулися з рекламних оголошень. Для документів, надрукованих барабанним принтером «Ар-Си-Эй», був використаний спеціальний шрифт OCR-A. Машина для читання документів працювала безпосередньо з комп'ютером RCA 301 (одним із перших масивних комп'ютерів). Швидкість роботи машини була 1500 документів у хвилину: вона перевіряла кожний документ, крім тих, які вона не змогла обробити правильно. Поштова служба Сполучених Штатів використовує машини, що використовують оптичне розпізнавання тексту, для сортування пошти з 1965 року на основі технологій, розроблених дослідником Яковом Рабиновим. В Європі першою організацією, що використовує машини з оптичним розпізнаванням тексту, був британський поштамт. Пошта Канади застосовує системи оптичного розпізнавання символів з 1971 року. На першому етапі в центрі сортування системи оптичного розпізнавання символів зчитують ім'я й адресу одержувача й друкують на конверті штрих-код. Він наноситься спеціальним чорнилом, яке чітко видиме в ультрафіолетовому світлі. Це робиться, щоб уникнути плутанини з полем адреси, заповненим людиною, що може бути в будь-якому місці на конверті.

В 1974 році Рей Курцвейл створив компанію «Курцвейл Комп'ютер Продактс», і почав працювати над розвитком першої системи оптичного розпізнавання символів, здатної розпізнати текст, надрукований будь-яким шрифтом. Курцвейл уважав, що краще застосування цієї технології — створення машини читання для сліпих, котра дозволила б сліпим людям мати комп'ютер, що вміє читати текст уголос. Даний пристрій вимагав винаходу відразу двох технологій — ПЗЗ планшетний сканер і синтезатор, що перетворює текст у мову. Кінцевий продукт був представлений 13 січня 1976 під час прес-конференції, очолюваної Курцвейлом і керівниками національної федерації сліпих.

В 1978 році компанія «Курцвейл Комп'ютер Продактс» розпочала продаж комерційної версії комп'ютерної програми оптичного розпізнавання символів. Через два роки Курцвейл продав свою компанію «Ксерокс», що була зацікавлена в подальшій комерціалізації систем розпізнавання тексту. «Курцвейл Комп'ютер Продактс» стала дочірньою компанією «Ксерокс», відомого як «Скансофт».

2. Для обробки інформації з паперових носіїв необхідно перевести дані з паперу в пам'ять комп’ютера. Для цього необхідний технічний пристрій – сканер.

Сканер – це пристрій за допомогою якого можна зчитувати статистичне зображення реального об’єкта, наприклад, аркуша паперу, і перетворювати його в аналогову форму, щоб переслати безпосередньо до пристрою виведення або цифрову форму, з метою подальшого коп’ютерного опрацювання.

Такі операції можуть стосуватися розпізнавання письмового тексту, перетворення фотографій, зчитування штрих-кодів у системах безпеки і контролях доступу, наукових і медичних досліджень. Зазначене можливо з огляду на існування різних видів сканерів:

 
 

Планшетні - найпоширеніший вид сканерів, оскільки забезпечує максимальна зручність для користувача - висока якість і прийнятна швидкість сканування. Являє собою планшет, усередині якого під прозорим склом розташований механізм сканування. Планшетні сканери відносяться до систем з рухомим дзеркалом (оригінал нерухомий), які мають інтегровану сканувальну головку.

Ручні -у них відсутній двигун, отже, об'єкт доводиться сканувати користувачеві вручну, єдиним його плюсом є дешевина й мобільність, при цьому він має масу недоліків - низька роздільна здатність, мала швидкість роботи, вузька смуга сканування, можливі перекоси зображення, оскільки користувачеві буде важко переміщати сканер з постійною швидкістю.

 
 

 
 

Барабанні — застосовуються в поліграфії, мають велику роздільну здатність (близько 10 тисяч крапок на дюйм). Оригінал розташовується на внутрішній або зовнішній стінці прозорого циліндра (барабана).

Слайди-сканери — служать для сканування плівкових слайдів, випускаються як самостійні пристрої, так й у вигляді додаткових модулів до звичайних сканерів.

       
   
 

Такі сканери використовуються професійними фотографами або фотографами, у яких залишилися звичайні аналогові фотоплівки з безцінними знімками. Для оцифровки старих архівів та для задоволення потреб фотографів-професіоналів, які працюють з плівкою за старою звичкою використовуються слайд-сканери.

 

Сканери штрих-коду — невеликі, компактні моделі для сканування штрих-кодів товару в магазинах.

конецформыначалоформыПротяжні сканери (вони ж аркушопротяжні або потокові сканери) - рідкісні гості на домашніх комп'ютерних столах. Їх можливості затребувані перш за все в офісах, оскільки призначені для сканування окремих аркушів паперу. Влаштовані вони досить просто: аркуш, що вставляється в щілину, протягується (як випливає з їх назви) крізь механізм, мимо лампи. Істотна відмінність від планшетних сканерів і сканерів слайду - вбудоване пристосування для автоматичної подачі аркушів, і тому протяжні сканери можуть працювати самостійно, без участі людини. Це робить сканування швидким, що важливо в умовах офісної роботи. Найбільш сучасні просунуті сканери можуть обробляти до 300 сторінок в хвилину.

           
     
 
 

На відміну від інших сканерів протяжні сканери зовні досить істотно розрізняються: загальний дизайнерський стандарт по відношенню до ним ще не вироблений, а вимоги, що пред'являються користувачами, не так строгі. У протяжних сканерах важливий не зовнішній вигляд, а додаткові функції: двостороннє сканування, місткість лотка для автоподавання аркушів.

 

Фотосканери - пристрої для сканування фотовідбитків.

 
 

       
   
 

3D-сканери – призначений для безконтактного сканування об’єкта з метою отримання його об’ємної компютерної моделі. Широковикористовуються в топографічній зйомці при побудові трьохвимірної моделі місцевості.

Основні характеристики сканера:

Вид сканера. Вид сканера обирається безпосередньо користувачем.

Присутність спеціальних можливостей. При скануванні текстів великого об'єму не зовсім зручно кожен раз вручну міняти аркушів паперу. Набагато зручніше сканери а автоматичною подачею бумаги. Вони самі піклуються про відсканований аркуш паперу та про подачу нового.

А якщо ви - професійний дизайнер і часто працюєте з фотографіями, вам не заводить сканер зі слайд - модулем. Ці сканери дають можливість працювати зі слайдами та негативами, не вдаючись до стадії друку.

Спосіб під'єднання сканера до комп'ютера. Якщо ваша материнська плата оснащена портом USB (як правило ним оснащені материнські плати зроблені для процесорів Pentium III, Pentium 4, Celeron, Athlon, Athlon XP, Duron, Sempron) то вибиройте сканер зі способом під'єднання до комп'ютера через USB порт. Данні від комп'ютера до сканера через USB порт передаються на багато швидше, ніж через вже застарілий порт LPT.

Розподільна здатність. Це найголовніша характеристика. Роздільна здатність сканера - це величина, яка показує зі скількох точок сканер може побудувати зображення. Ця величина як і у принтера вимірюється у dpi. Чим з більшою кількістю крапок сканер будує зображення, тим якісніше та чіткіше зображення. Перші моделі сканерів мали роздільну здатність 200 - 300 dpi. Для сучасних планшетних сканерів ця величина складає 800 - 1500 dpi і вище.

Розрядність. Це також головна характеристика. Розрядність - це величина, яка означає кількість інформації, яка потребується для оцифровки кожної точки зображення; а ще - це кількість кольорів, які здатен розпізнати сканер. Ця величина вимірюється у бітах.

Перші моделі сканерів були чорно - білими, тобто сприймали лише чорний та білий кольори. Сучасні сканери дозволяють розпізнавати мільярди відтінків.

§ 12 біт = 8,35 млн. кольорів

§ 24 біт = 16,7 кольорів

§ 30 біт = 1 млрд. кольорів

Звичайно, реальна кількість таких кольорів у повсякденному житті ніколи вам не знадобиться. Справа в тому, що людської чутливості ока не вистачить щоб розрізнити 16 - ти бітний колір від 24 - бітного... Але виробники на останніх моделях своїх сканерів заявляють 48 бітне розпізнавання кольорів.

Фірма - виробник. Найкращими фірмами - виробниками є наступні фірми:

§ Hewlett - Packard

§ Canon

§ Mustek

§ UMAX

§ Agfa

§ Epson

Конструкція абсолютно будь-якого пристрою, особливо, якщо пристрій включає як електронні, так і механічні елементи, може здатися криницею таємниць і загадок, в яких важко розібратися самому. Планшетні сканери - якраз такий варіант. При першому розгляді пристрій сканера не здається якимсь вже особливо складним: корпус з нечисленними роз'ємами і парочкою кнопок, зйомна кришка планшета, та скло, на яке кладуться оригінали для сканування.

Але щоб навчитися орієнтуватися в численних моделях сканерів, представлених сьогодні на комп'ютерному ринку, треба уявляти собі реальне значення вказуваних виробниками характеристик та будову сканера.

Розглянемо найважливіший елементу будь-якого сканера - світлочутливої матриці, що є як би його "очима".

Саме матриця є найважливішою частиною будь-якого сканера. Матриця трансформує зміни кольору і яскравості світлового потоку, що приймається, в аналогові електричні сигнали, які будуть зрозумілі лише єдиному пристрою - аналого-цифровому перетворювачу (АЦП). Тільки цей пристрій розуміє матрицю, адже ніякі процесори або контролери не розберуть її аналогові сигнали без попереднього тлумачення перетворювачем, що здатний забезпечити роботою усіх цифрових елементів, що сприймають лише одну мову - мову нулів і одиниць.

Більшість сучасних сканерів для будинку і офісу базуються на матрицях двох типів: на CCD (Charge Coupled Device) або на CIS (Contact Image Sensor). Цей факт породжує в умах користувачів два питання: в чому різниця і що краще? Якщо різниця помітна навіть неозброєним оком - корпус CIS -сканера плоский, порівняно з аналогічним CCD -аппаратом (його висота зазвичай складає близько 40-50 мм), то відповісти на друге питання набагато складніше. Відповідь тут треба аргументувати, щоб уникнути питань типу "а чим він кращий"?, "а чому він кращий"?.


Розглянемо основні переваги і недоліки цих двох класів сканерів.

 

CCD -сканер має більшу глибину різкості, ніж його CIS -сканер. Досягається це за рахунок застосування в його конструкції об'єктиву і системи дзеркал.

 
 

Сканери з CCD -матрицей поширені значно більше, ніж CIS -сканери. Пояснити це можна тим, що сканери в більшості випадків використовують не лише для оцифрування текстових документів, але і для сканування фотографій і кольорових зображень. У цьому плані, користувачеві хочеться отримати сканер з найбільш точним і достовірним перенесенням кольорів, а в аспекті світлочутливості CCD -сканер набагато більш чітко передає колірні відтінки, світла і півтони, ніж CIS -сканер.

 
 

CIS -матрица складається зі світлодіодної лінійки, яка освітлює поверхню сканованого оригіналу, мікролінз і безпосередньо самих сенсорів, що самофокусуються. Конструкція матриці дуже компактна, таким чином, сканер, в якому використовується контактний сенсор, завжди буде набагато тонший CCD сканер. До того ж, такі апарати славляться низьким енергоспоживанням; вони практично нечутливі до механічних дій. Проте CIS -сканери дещо обмежені в застосуванні: апарати, як правило, не пристосовані до роботи із слайд-модулями і автоподатчиками документів. Із-за особливостей технології CIS -матрица має порівняно невелику глибину різкості. Для порівняння, у CCD -сканеров глибина різкості складає ±30 мм, у CIS - ±3 мм. Іншими словами, поклавши на планшет такого сканера товсту книгу, отримаєш скановане зображення з розмитою смугою посередині, тобто в тому місці, де оригінал не стикається із склом. У CCD -аппарата уся картина буде різкою, оскільки в його конструкції є система дзеркал і фокусуюча лінза. У свою чергу, саме досить громіздка оптична система і не дозволяє CCD -сканеру досягти таких же компактних розмірів, як у CIS сканера. У плані роздільної здатності CIS -сканеры також не конкурент CCD. Вже зараз деякі моделі CCD -сканеров для будинку і офісу мають оптичний дозвіл близько 3200 dpi, тоді як у CIS -аппаратов оптичний дозвіл обмежений.

Сканери з CIS -матрицей знайшли своє застосування там, де вимагається оцифровувати не книги, а листові оригінали. Той факт, що ці сканери цілком отримують живлення по шині USB і не потребують додаткового джерела живлення, припав власникам портативних комп'ютерів. Оцифрувати оригінал і перевести його в текстовий файл вони можуть де б то не було, не зав'язуючись з близькістю електричних мереж, що дозволяє закрити очі на ряд недоліків контактного сенсора. Власне тому, відповісти на питання "який сканер краще" можна виходячи конкретних запитів.




Поделиться с друзьями:


Дата добавления: 2014-01-04; Просмотров: 1420; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.