Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Автоматизированный перевод документов

Распознавание документов

Этап распознавания документа состоит в преобразовании электронного изображения (фактически набора цветных или черно-белых точек) в текстовый документ. В процессе распознавания происходит "сравнение" элемента изображения с эталонными вариантами начертания символов, после чего выбирается наиболее подходящий символ. Этот подход требует использования специального комплекта шрифтов, но дает на нем наилучшие результаты.

На сегодняшний день уже существуют современные алгоритмы распознавания, не привязанные к конкретному начертанию символов, так же, как человек способен узнавать буквы при любых начертаниях (и даже при значительных искажениях).

В ходе распознавания сначала в изображении выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки (например, подрисуночные подписи), ячейки таблиц. Этот этап называют сегментацией, он может выполняться автоматически или вручную. После этого выполняется автоматический этап распознавания: блоки разбиваются на строки, строки - на отдельные символы, каждый из которых распознается независимо и помещается в итоговый текстовый документ.

Все операции, необходимые в ходе преобразования бумажного документа в электронную форму, могут быть выполнены с помощью программы FineReader. Эта программа способна выполнять сканирование и распознавание текстов на разных языках, в том числе и смешанных двуязычных текстов. С ее помощью можно выполнять пакетную обработку многостраничных документов, а также настраивать режим распознавания для улучшения соответствия электронного документа бумажному оригиналу при плохом качестве последнего или использовании в нем шрифтов, далеких от стандартных.

К средствам автоматизации перевода можно отнести два вида программ: электронные словари и программы перевода. Электронные словари представляют собой средства для перевода отдельных слов, отображаемых на экране или имеющихся в документе. Удобство их использования состоит в возможности немедленно получить перевод неизвестного слова без поиска его в отдельном толстом томе. Программы перевода получают на входе текст, выполненный на одном языке, и выдают текст на другом языке, то есть автоматизируют перевод текста.

Электронные словари удобны для профессиональных переводчиков, которые выполняют большую часть работы по переводу вручную. Их также могут использовать лица, в целом знающие иностранный язык, если надо не обеспечить перевод документа, а просто ознакомиться с его содержанием.

Надежный и качественный автоматический перевод документов с одного языка на другой (мы будем говорить в основном о переводе с английского на русский) пока остается недостижимым идеалом. Причин для этого множество, и главная из них состоит в том, что перевод текста не сводится к переводу отдельных лексических единиц. Преодолеть этот барьер современные программы автоматического перевода пока не могут.

Тем не менее, современные средства автоматизации перевода достигли того уровня, который позволяет эффективно использовать их на практике. Дело в том, что технический текст, в отличие от художественного, использует ограниченное число языковых конструкций и более ориентирован на однозначную интерпретацию. Среди используемых лексических единиц встречается большое число технических терминов, имеющих совершенно определенный смысл в рамках данной научной или технической дисциплины. Это значительно упрощает процесс перевода и позволяет в отдельных случаях автоматически получать текст, близкий к результату ручного подстрочного перевода.

Программы автоматического перевода имеет смысл использовать для перевода технических текстов в следующих случаях:

- при абсолютном незнании иностранного языка;

- при необходимости получить перевод быстро, даже ценой снижения его качества (например, это относится к переводу Web-документов);

- для перевода на иностранный язык (умения читать иноязычные тексты недостаточно, чтобы научиться объясняться на иностранном языке);

- для быстрого создания первоначального черновика ("подстрочника"), используемого в ходе подготовки полноценного перевода.

Для автоматизированного перевода технических текстов можно, например, использовать разные программы семейства Promt. Они позволяют переводить документы с английского языка на русский и с русского на английский. Чтобы обеспечить правильный перевод терминов, относящихся к определенной научной дисциплине, используют специализированные словари, в которых для слов, используемых как термины, предлагается в качестве перевода не "обиходное", а специальное значение.

Если необходимость в переводе документов возникает часто и обрабатывать приходится документы разных форматов, удобно использовать один из вариантов пакета PROMT XT. Если необходимость перевода возникает от случая к случаю и приходится иметь дело с неформатированными текстами (например, сообщениями электронной почты) и короткими отрывками, можно воспользоваться более простой программой X-Translator, которая также относится к семейству PROMT.

Качество перевода определяется полнотой используемых словарей и учетом грамматических правил. При переводе можно как применять стандартные ресурсы программы, так и добавлять собственные. Правила перевода отдельных слов (терминов) определяются использованием словарей. Для каждого переводимого документа задается набор применяемых словарей. Словари просматриваются в определенном порядке, и, как только переводимое слово обнаружено в каком-то из словарей, дальнейший просмотр прекращается. Программа Promt ХТ использует при переводе три типа словарей.

Генеральный словарь содержит общеупотребительную лексику и бытовые значения слов. Он используется всегда и притом самым последним, если слово не найдено ни в одном из других словарей. Изменение этого словаря невозможно.

Специализированные словари содержат термины из различных областей знаний, причем значение переводимого термина выбирается в соответствии со специализацией словаря. Одни и те же слова могут иметь совершенно разный смысл в разных технических дисциплинах, так что выбор нужного словаря обеспечивает правильное использование специальной терминологии в переводе. Редактирование специализированных словарей не допускается, но их можно подключать или отключать при переводе документа.

Пользовательский словарь формируется пользователем вручную. В него можно включить слова, отсутствующие в других словарях, или представить более точный перевод каких-то из терминов. Пользовательские словари можно произвольно создавать и редактировать. Применяют пользовательские словари обычно в первую очередь, до специализированных и генерального.

Для большинства пользователей, нуждающихся в переводе иноязычных текстов лишь от случая к случаю, наибольший интерес вызывает не средство перевода как таковое, а лишь функции перевода. Было бы удобно применять такие функции в самых разных программах прямо по ходу дела, не запуская каждый раз мощную внешнюю программу и не перекидывая документ из одной программы в другую и обратно. Для добавления функции перевода в офисные приложения в программу Promt ХТ входит средство SmarTool. Оно позволяет встроить функции перевода в офисные приложения, например, в Word и Excel. В соответствующей программе добавляется новая панель инструментов и команда Promt в строке меню для выполнения операций по переводу. Текст перевода может заменить исходный, быть добавлен после него или появиться в отдельном окне или в новом документе. В выбранном приложении становятся доступными все основные функции программы Promt. Наибольшую ценность функция оперативного перевода представляет для документов Интернета. Сегодня на большинстве страниц используется английский язык, поэтому шансы найти нужную информацию именно на англоязычной странице максимальны. Еще одна ценная возможность, которую обеспечивают интегрированные функции перевода, - облегчение поиска информации в англоязычных поисковых системах. При таком поиске в Интернете используются ключевые слова, переведенные на английский язык.


Тема 9.

<== предыдущая лекция | следующая лекция ==>
Сканирование документов | Что такое язык программирования
Поделиться с друзьями:


Дата добавления: 2014-01-06; Просмотров: 1033; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.