Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Г. Москва. Российский государственный




Российский государственный

социальный университет

Машинный перевод: проблемы и перспективы

Исследования по МП за свою пятидесятилетнюю историю переживали как подъемы, так и спады. В начале 1960-х годов завершился первоначальный эйфорический этап в развитии МП, чему в сильнейшей степени способствовала публикация так называемой «Черной книги МП» – доклада Специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, в котором была констатирована невозможность создания в обозримом будущем универсальных систем высококачественного МП. Следствием этой публикации было сокращение финансирования и общее снижение интереса к проблематике МП, однако полного сворачивания исследований, в особенности теоретических, не произошло.

Начало работ по машинному, или автоматическому переводу относится к концу 1940-х – началу 1950-х годов. Идея МП во многом, хотя и не во всем обязана своим происхождением практическим нуждам. В указанный период существенно возрос поток научно-технической информации, а отслеживание этого потока в условиях напряженного и дорогостоящего научно-технического соперничества стало весьма насущной задачей. В полной мере решить ее средствами традиционного, «человеческого» перевода не представлялось возможным. В 1949 американский специалист по дешифровке Уоррен Уивер составил меморандум, в котором теоретически обосновал принципиальную возможность создания систем МП. Он исходил из того, что структурное сходство между языками может быть формально описано, а это является необходимым условием разработки алгоритмов для ЭВМ. Первоначально предполагалось, что системы МП смогут осуществлять перевод научно-технических текстов любых типов, что позволит отказаться от дорогостоящего труда обычных переводчиков. Оказалось, однако, что создание систем МП требует существенной и нетривиальной информации о функционировании естественного языка, которая отсутствовала в традиционных грамматических описаниях. Кроме того, компьютерное моделирование способности человека к переводу с одного языка на другой требовало учета не только лингвистических, но и психологических, социальных и других факторов. Первые попытки разработки программ автоматического перевода оказались неудовлетворительными: результаты перевода ЭВМ требовали серьезного редактирования, а стоимость МП зачастую была выше оплаты труда обычного переводчика. В настоящее время развитие систем МП идет по нескольким направлениям. Во-первых, разрабатываются человеко-машинные системы, предусматривающие прямое участие человека в процессе перевода на различных этапах. Во-вторых, проблемная область системы ограничивается конкретным подъязыком, например текстами химического машиностроения или ядерной физики. В-третьих, системы МП рассматриваются как вид систем искусственного интеллекта, что позволяет использовать компьютерные технологии, разработанные в компьютерном моделировании мышления человека.

Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП (датой ее рождения обычно считают 1956), получила название искусственного интеллекта, а создание систем МП было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

Можно выделить два основных стимула к развитию работ по МП в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и МП в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов.

Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем МП способствует разрешению важнейших социально-коммуникативных задач.

В ходе развития идей и создания промышленных систем МП были разработаны способы автоматического морфологического анализа для основных европейских языков, методы автоматического обнаружения синтаксических структур, сформулированы требования к семантическим компонентам систем. В рамках эффективного международного сотрудничества и; обмена терминологией созданы большие автоматические словари с разнообразной лексической информацией, банки терминологических данных по разным тематическим областям (например, словарь ЕВРОДИКАТОМ и ряд других словарей, тематика которых определялась тем обстоятельством, что практический МП чаще всего имеет дело с научными и техническими текстами). Результаты работ по МП способствовали началу и развитию исследований и разработок в области автоматизации информационного поиска, логического анализа естественно-языковых текстов, экспертных систем, способов представления знаний в вычислительных системах и т.д.

В СССР в качестве головной организации по МП был в 1974 определен Всесоюзный центр переводов научно-технической литературы и документации (ВЦП), взявший на себя координацию работ в масштабе страны. Под его эгидой был проведен ряд крупных международных научных конференций (1975, 1979, 1983, 1985, 1989) по МП и проблемам научно-технического перевода. В ВЦП были созданы промышленные системы МП с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю.А. Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ. В ВПЦ была также разработана система МП с русского языка на английский АСПЕРА. Большой вклад в разработку промышленных систем МП был сделан ленинградской общесоюзной группой «Статистика речи» под руководством Р.Г. Пиотровского, а также группами специалистов по компьютерной лингвистике в Минске (А.В. Зубов), Кишиневе (В.А. Чижаковский), Махачкале (А.И. Чапля), Чимкенте (К.Б. Бектаев), Самарканде (Х.А. Арзикулов) и др. На базе исследований и научно-практического подхода группы «Статистика речи» были впоследствии разработаны и сейчас находятся в коммерческом использовании такие системы МП, как Stylus, Socrat и другие.

В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам МП, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом которого в момент обоснования этого подхода в 1960-х годов был «МП без перевода, без машин, без алгоритмов» (см. обзор работ этого направления, принадлежащий Л.Н. Беляевой и М.И. Откупщиковой). Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Все практические системы без исключения используют идею переводных соответствий, т.е. в их основе лежит модель «текст-текст» и они реализуют краткую схему перевода. Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу. Выявление содержания текста в рамках человеко-машинного интерфейса может производиться, как и во всякой прикладной задаче, только с использованием как декларативных, так и процедурных знаний и при значительной опоре на лексику. Эта точка зрения обоснована, в частности, в недавних работах отечественного специалиста по программированию и искусственному интеллекту А.С. Нариньяни.

За рубежом эксплуатируется целый ряд систем МП. Наиболее известной из их числа является система SYSTRAN, разработанная и поддерживаемая компанией SYSTRAN Software Inc. и используемая службой МП при комиссии Европейского союза. Данная служба, объем переводов в которой составляет около 2,5 млн. страниц в год, использует систему SYSTRAN для перевода с английского на немецкий, французский, испанский, греческий и итальянский языки, а также с французского на английский, испанский и итальянский. В практической эксплуатации находится ряд практических систем исследовательского центра Гренобля (Франция), систему СЦЪТ (Гонконг, ныне КНР) и ряд других. На рынке коммерческого МП предлагаются системы таких фирм, как Logos Corp., Globalinc Inc., Toshiba Corp., CompuServe и др., в том числе и санкт-петербургская компания ПроМТ, выпустившая под названием PROMT 98 усовершенствованную версию популярной системы Stylus.

Проблематика МП находит свое отражение в регулярно проводимых международных конференциях по вычислительной лингвистике GOLING, а также на международных конференциях по МП МТ SUMMIT.

Технические инновации 1990-х годов (значительное расширение возможностей персональных компьютеров, появление качественных и доступных массовому пользователю сканеров и эффективных программ оптического распознавания текста, также развитие глобальной компьютерной сети Internet и средств доступа к ней) придали новый стимул работам по МП, привлекли в данную область новые значительные инвестиции и увенчались серьезными практическими результатами – появлением достаточно эффективных систем МП и компьютерных словарей для работы на персональном компьютере (в том числе продуктов отечественных компаний ПроМТ, «Бит», «Арсеналъ», отчасти уже упомянутых выше);

объединением систем МП с системами оптического распознавания текста и проверки орфографии; созданием специальных средств МП для работы в Internet, обеспечивающих либо перевод текстов на серверах соответствующих компаний, либо онлайновый перевод Web-страниц. В сочетании с пониманием ограничений МП и реалистической формулировкой целей его использования (прежде всего, это ознакомительно-реферативные цели, что хорошо соответствует базовой идеологии Internet как средства «навигации в информационном море») все это позволяет говорить об органичном встраивании систем МП в общий процесс формирования глобального информационного общества.

Эффективность работы современной системы МП в решающей степени зависит от ее удачной настройки на конкретный подъязык (или микроподъязык) естественного языка, на определенную лексику и ограниченный набор грамматических средств, характерных для текстов данной предметной области, а также на определенные типы документов. Учение о подъязыках с точки зрения МП было впервые сформулировано Н.Д. Андреевым (Ленинградский университет) в 1967, хотя представления о языковых регистрах, стилях, жанрах письменного текста и т.п. были хорошо известны и в традиционной лингвистике. Подъязык, с точки зрения МП, определяется в первую очередь некоторым исходным набором текстов, в рамках которого определяется входной и выходной словари, степень распространения и характер лексической неоднозначности лексем, характер и распространенность синтаксических конструкций, способы их перевода в данной языковой паре и пр. Большую роль играют параллельные тексты и словари-конкордансы, с помощью которых можно достаточно эффективно изучить и использовать в составлении алгоритмов лексическую сочетаемость и дистрибуцию (распределение) языковых элементов в речи (дискурсе, тексте). Статистические характеристики подъязыков помогают упорядочить структуру соответствующих алгоритмов анализа и синтеза. Выходной словарь, ориентированный на потребности синтеза и передачи основных видов соответствий в конкретной языковой паре, обеспечивает приемлемый выходной текст. В любом из современных видов МП необходимо участие человека-редактора, удобство работы которого обеспечивается качеством и надежностью соответствующего программного обеспечения.

Перспективы развития МП связаны с дальнейшей разработкой и углублением теории и практики перевода, как машинного, так и «человеческого». Для развития теории важны результаты сопоставительного языкознания, общей теории перевода, теории закономерных соответствий, способов представления знаний, оптимизации и совершенствования лингвистических алгоритмов. Новые и более эффективные словари с необходимой словарной информацией, строгие теории терминологизации лексики, теория и практика работы с подъязыками помогут повысить качество перевода лексических единиц. Формальные грамматики, ориентированные на перевод, дадут возможность оптимизировать алгоритмы нахождения

переводных соответствий в данной коммуникативной ситуации, которая может быть описана в рамках соответствующих прикладных теорий представления знаний. Наконец, новые возможности программирования и вычислительной техники также будут вносить свой вклад в совершенствование и дальнейшее развитие теории и практики МП.

 

Литература:

1. Ахманова О.С. Словарь лингвистических терминов. – М., 1969.

2. Блумфилд Л. Язык. – М., 1968.

3. Будагов Р.А. Введение в науку о языке. - М., 2003.

4. Гак В.Г. Языковые преобразования. – М., 1998.

5. Гумбольдт В. Избранные труды по языкознанию. – М., 1984.

6. Дурново Н.Н. Грамматический словарь (грамматические и лингвистические термины). – М.: Пг., 1924.

7. Есперсен О. Философия грамматики. – М., 1958.

8. Журинский А.Н. Лингвистика в задачах. – М., 1995.

9. Лайонз Дж. Введение в теоретическую лингвистику. М., 1978.

10. Лингвистические задачи. – М., 1983.

11. Марузо Ж. Словарь лингвистических терминов. – Изд. ИЛ, 1960.

12. Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. – М., 1978.

13. Пауль Г. Принципы истории языка. – М., 1960.

14. Сепир Э. Язык. – М. - Л.: Соцэкгиз, 1934. - Переиздано в кн.: Э. Сепир Избранные труды по языкознанию и культурологии. – М., 1993.

15. Соссюр Ф. де. Труды по языкознанию. – М., 1977.

16. Трубецкой Н.С. Избранные труды по филологии. – М., 1987.

17. Хэмп Э. Словарь американской лингвистической терминологии.– М., 1964.

18. Шайкевич А.Я. Введение в лингвистику. – М., 2005.

19. Языковедение. Введение в науку о языках. – М., 2003.

 

Резепова Н.В.




Поделиться с друзьями:


Дата добавления: 2015-04-24; Просмотров: 340; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.022 сек.