Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Сучасні проєкти лінігвістичних корпусів




Лекція 5.

Окремо слід розглянути багатомовні лінгвістичні корпуси (БЛК – multilingual corpora) та паралельні корпуси (parallel corpora- ПЛК), а також порівняльні лінгвістичні корпуси (comparable corpora), які є найбільш важливими для теорії та практики перекладу.

БЛК являє собою зібрання декількох аналогічних за структурою одномовних ЛК. ПЛК – це одномовний ЛК, що містить у собі суькорпуси як оригінальних текстів, так і перекладів цією мовою. Наприклад Савоннліінський корпус текстів, зібраний в Інституті перекладачив м. Савонлінна, Університет м.Йоєнсуу (Фінляндія). Корпус містить оригінальні фінські тексти і переклади фінською мовою, виконані з англійської, російської, німецької та ін. мов.

Існують великі розбіжності поміж дефініціями стосовно паралельних корпусів. ПЛК можуть складатися з оригінальних текстів мовою А та перекладів таких текстів мовою В, а також тексти мовами А і В та їх переклади відповідно мовами В і А; тільки переклади мовами В, С, …Х, орігінальні тексті яких були написані мовою А. Крім цього, до ПЛК можна віднести діахронічні ПЛК, які складаються з текстів, наприклад, древньоанглійською мовою, та їх перекладів сучасною англійською мовою, а також, накшталт, транскрибовані корпуси текстів з текстів літературною мовою, прочитані носіями різних діалектів. Крім того, відрізняють так звані «шумні»ПЛК (noisy parallel corpora), тобто з пропусками у перекладі, «дзеркальні» ПЛК (reciprocal corpora), що складаються з текстів мовами А і В та перекладів цих текстів відповідно мовами В і А.

Важливість таких ПЛК у теорії та практиці перекладу зумовлена тим, що вони дозволяють нам об’єктивно встановити як перекладачи долають труднощі, і використовують ці адані для розробки моделей для перекладачив-початківців. Вони також відіграють важливу роль у дослідженні перекладацької норми в специфічних соціокультурних та історичних контекстах.

ПЛК, яці є відносно новим типом мовних ресурсів, залишаються незамінним джерелом для проведення досліджень в галузі прикладної лінгвістики, веріфікація систем автоматичного перекладу, розробка систем автоматичного пошуку еквівалентів), а також для перекладознавчих досліджень (порівняння структури оригінального тексту і перекла-ду, визначення міри інформаційних затрат при перекладі, дослідження різних перекладацьких стратегій).

Першими ПЛК були зібрані в Швейцарії як повідомлення трьома мовами (? –скільки державних взагалі-3) про снігові лавини, прогнози погоди у канадських ЗМІ англійською та (?-1). Всі вони мали жорсткий синтаксис і мали на меті створення систем машинного перекладу. Перші ресурси такого типу з’явилися наприкінці 80-х-початку 90-х рр. Тоді було розпочато низку проектів, так чи інакше пов’язаних з ПЛК:

1) Canadian Hansards (-? – 2-parliamentary reports on discussions) English-French parallel

corpus. З 1986 року вона продовжується і сьогодні. Він використовується при розробці ПЗ: вирівнювача паралельних текстів (aligner), системи автоматичної обробки текстів для МП, програми для зняття лексичної полісемії та омонімії (word sense disambiguation). В Інтернеті розміщего пошукових інтерфейс www.transli.com

2) Проект INTERSECT (International Sample of Contrastive Texts) в університеті м.

Брайтона. Обсяг біля 1.5 млн. слововживань дял кожної із мов. До французько-німецького та німецько-французького ПЛК включені тексти різних стилей та жанрів(3-?): публіцистика, документи, юридичні тексти, промови політиків, художня література та ін. www.bton.ac.uk/edusport/languages/html/intersect.html

3) ET10-63 - англо-французький ПЛК. Він містить документи ЄС з телекомунікацій.

Обсяг близько 1.25 млн. для кожної мови. Корпус анотований за частинами мови (POS tagging). www.comp.lancs.ac.uk/computing/research/ucrel/corpora.html

4) Корпус CRATER – тримовний фр-ісп-англ ПЛК за обсягом 1 млн. – тексти з

телекомунікацій. Забеспечено доступ до корпусу в режимі on-line: Ibidem.

5) Англо-норвезький ПЛК, ун-т Осло 1994-1997. Складається із оригінальних

художніх англ. і норв. Текстів та їз перекладів відповідно на норвезьку та англійську. Тексти довжиною 10-15 тіс. Слововживать. Обсяг ПЛК – 2.6 млн. www.hf.uio.no/iba/projject/index.html

6) В університетах Лунда і Гетеборга складений англо-шведський ПЛК – ESPR. Обсяг

2.8 млн.

7) З останнім проєктом тісно зв’язаним є ще два шведських проєкти: ETAP та PLUG.

Вони виконуються у Стокгольмскому та Упсальському університетах. Перший складається з декількох субкорпусів, які представляють різні мовні жанри і включають тексти шведською та сімома іншими мовами, які мають певне поширення у Швеції: арабьсою, англійською, фарсі, фінською, польскбкою, сербською, іспансбкою. Важливим завдання проекту є анотування текстів і розробка ПЗ для атвоматичного пошуку перекладних еквівалентів. Parallel Corpora in Linkoping, Uppsala, and Goteborg) це три паралельних корпуса по дві мови в кожному. Загальний обсяг – 2 млн. слововживань.

 

8) Корпус COMPARA www.portugues.mct.pt - 5 б.

9) Англо- чеський ПЛК – KACENKA www.phil.muni.cz/angl/kacenka/kacha.html - 5 б.

10) У Любляні створено словенсько-англійський-англо-словенський ПЛК IJS-ELAN –

http://nl.ijs.si/elan

11) Асоціація ELRA (European Language Resources Association) фінансує цілу низку проектів. Найбільш вагомі є два з них:

11.1. Багатомовний ПЛК MLCC та корпус MULTEXT JOC www.icp.grenet.fr/ELRA/home.html

11.2.корпус MULTEXT JOC (5 б) www.icp.grenet.fr/ELRA/home.html

Завершуючи матеріал цього розділу, зауважімо, що перші корпуси являли собою колекції невеликого обсягу. Основний об’єкт – нормативний варіант письмової мови. З часом, поштрюється сфера інтересів укоадачив різноманітних корпусів. Все частіше увага приділяється спеціфічним варіантам мови та підмови, наприклад, дитяча розмовна та письмова мова (корпус CHILDES), мовлення неносіїв мови (International corpus of Learner English), з’являються корпуси текстів, що відображають усне мовлення, а також історичні (або діахронічні) корпуси текстів.

 

 




Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 544; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.011 сек.