Лекція 4

12 Следующая ⇒

Корпуси текстів (історичний аспект)

Незважаючи на значну поширеність КЛ в наші дні існують різні думки щодо її засад та історії. А саме, вважається що становлення КЛ припадає на 1980-ті роки, коли вони отримали широке розповсюдження, хоча цілком натуральним є факт, що перші появи корпусів відносяться до початку 1960-х років. Але, наприклад, Макенері та Уїлсон вважають хибною думку про саме такі історичні маркери. Вони стверджують, що до появи породжувальним граматик у лінгвістиці домінувало вивчення масивів емпіричних даних, тобто також корпусів. Інша річь, що аналіз виконувався вручную, внаслідок чого обсяг даних був обмежений. Однак, ще наприкінці позаминулого століття деякі дослідники і без допомоги комп’ютерів обробляли величезні масиви даних.

Породжувальна граматика і хомськіанство на деякій час перервали цю традицію. Саме Ноа Хомський піддав жорсткій і різкій критиці доелектронні корпуси текстів. Він писав: «Деяки речення не зустрінуться, тому що вони очевидні, інші – тому щохибні, треті – тому що вони нечемні. Таким чином, прородномовний корпус дасть настільки сильно викривлену картину, що побудований на ньому опис виявиться простим списком». Хомський як послідовник раціоналізму вважав, що дослідження емпіричних даних – абсолютно безглузде заняття, оскільки суть лінгвістики – у вивченні саме мовноїкомпетенції (language competence), а не відображення останньої – мовної діяльності (language performance).

Багато мовознавців ставилися досить критично до корпусів текстів. Вони стверджували, що добре тренований лінгвіст може легко придумати сотню гарних прикладів, не звертаючись до будь-яких текстів. А проте, КЛ поступово змінювала свої позиції й залучала все нових прибічників. (Практичний вопрос на 3 бали – чому? Чому закінчився кам’яний вік?).

Критику Хомського було враховано: при створенні електронних корпусів текстів викривлення реальної картини намагалися мінімізувати за рахунок упорядкування вибірок. На превеликий жаль, навіть ретельна робота над репрезентативністю вибірки все одно залишає питання про викривлення (практичнее питання на 1 бал - skewedness) відкритим. Не зважаючи на це, можливість швидко отримувати велику кількість ілюстративного матеріалу, а також кількісну інформацію робило корпуси текстів все привабливішими для дослідників. Потужність комп’ютерів зростала, вони ставали більш ергономічними (1- бал) і зручними в користуванні, все більш доступними масовому користувачеві. Все більше масивів текстових даних переводилося до елекстронної форми, ПЗ дозволяло виконувати все більш витончені (1 бал- subtle, refined, exquisite) операції. Кількість проектів із використанням корпусів текстів дедалі зростала (Svartvik, Jan 1992: Corpus Linguistics Comes of Age. In: Directions in CL. Proceeddings of Nobel Symposium 82? Stockholm, 4-9 Aug.,1991, Berlin-New York:Mouton de Gruyter.-P.7-17), а скептиків ставало все меньше (Fillmore, Charles Ою 1992: “”Corpus Linguistics”” and “”Computer-aided armchair linguistics” (2 балла -) Ibidem: P.35-61.

Таким чино, слід визнати, що історія КЛ налічує майже 50 років. Першою спробою використання ЕОМ для лінгвістичних цілей вважається робота Центру автоматизації вивчення літературних текстів у Галараті (1956р.). Основним завданням було введення до компютера максимального числа текстів в врізній графіці, з метою генерації інвентарізації різномагітних дінгвістичних фактів, а саме: створення різного роду покажчиків і конкордансів слів, морфем, графем, синтагм, частот… Галузь дослідження охоплювала 9 мов у 4-х абетках:: латина, італійська, німецька, англійська (латиниця), іврит, арамейська, набатейська (графіка івриту)(3 бали), грецька, російська (кирилиця). Ця система назви «корпус» не мала, але за своїм підходом та цілями дослідження може вважатися лінгвістичним корпусом.

Браунівський корпус (The Brown Standard Corpus of American English), – перша система, що мала у своєї назві слово «корпус», - це лінгвістичний корпус стандартного американського варіанту англійської мови, створений в університеті Брауна (США(2 бали?-Rh.I-Ivy League). Цілком зрозуміло, що, хоча ці дві праці започаткували напрям КЛ, вони не були значними з огляду на потужності тодішніх ЕОМ.

Наприкінці 1960-х рокув завершено роботу над корпусом текстів св.Фоми Аквінського та інших філософів середньовіччя, початого ще у 1947 році й зібраного Роберто Буса. Обсяг корпусу – 10,6 млн.слововживань. Саме з цього корпусу починається традиція електронних корпусів текстів, призначених для досліджень у галузі гуманітарних наук.

Деякі сучасні корпуси перевищують 100 млн. слововживань, наприклад, Британський національний корпус (British National Corpus) Bank of English. Англійська мова в наш час займає домінуючи позиції в корпусній лінгвістиці, але в останні роки йде активна робота з укладання корпусів текстів і для інших мов – німецької, французької, іспанської, італійської, шведської та ін.

Російська мова довгий час залишалася однією із світових мов, що не мають власного корпусу текстів, який був би доступний з Інтернету. Сьогодні існує 4 значні проєкти, до яких можливий доступ дослідникам. Починаючи з 1999 року в унівеврситеті Тюбінген ведуться роботи зі створення корпусу, в основу якого покладено Упсальський корпус російських текстів. У лабораторії загальної та коип’’ютерної лексикології та лексикографії філологічного факультету МДУ з 2000 року ведуться роботи по створенню корпусу російських газет кінця ХХ століття. Трохи піздніше на відділенні славістики і балтистики Гельсінського університету почалася робота зі створення Гельсінського анотованого корпусу ГАНКО.

Майже одночасно в рамках програми Російської АН «Філологія та інформатика» стартував проєкт зі створення Національного корпусу російської мови.

Перший корпус російської мови – Упсальський створений шведськими русистами. Він складається із фрагментів текстів. Обсяг – 1 млн.слововживань, відсутня тематизація і морфологічна розмітка. І тому Упсальський К не відповідає сучасним стандартам укладання коропусів. Багато в чому саме його недоліки підштовхнули до активізації робот зі створення російських корпусів.

В рамках так званого Машинного фонду російської мови, якій створювався із середини 80 рр. минулого століття під керівництвом Андрющенка та Єршова, але не був завер-шеним і не було створено корпусу, але була зібрана колекція текстів різного типу.

В останній час розроблен корпус сучасної публіцистики (90-е роки), який створювався у відділі експериментальної лексикографії Інституту російської мови ім. Виноградова, російський К університету м.Тампере в Фінляндії, корпус Санкт-Петербурзького державного університету. Всі вони є доступними до широкого кола дослідників.

В Україні поки що функціонує єдиний ЛК – Український національний лінгвістичний корпус (УНЛК), створений вченими мовно-інформаційного центру НАН Уукраїни обсягом понад 36 млн. слововживань. За його допомогою вже проведено цілу низку мовознавчих досліджень та створено ряд лексикографічних праць.

12 Следующая ⇒

Поделиться с друзьями:

Дата добавления: 2014-01-11; Просмотров: 462; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.01 сек.