Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Традиційний та новий засоби збирання та обробки мовних даних




Якіми, в даному контексті, були і є традиційні засоби збирання та зберігання мовних даних? Це ручна обробка писемних текстів, опитування інформантів згідно з різноманітними методиками й подальше вивчення полевих анкет, записи текстів в писемної формі, словникових картотеках тощо. (8.Ціла низка методів полевих досліджень обговорюється у (Кибрик А.Е.Методика полевих исследований (к постановке проблеми).М.,1972). Зрозуміло, що цей етап збірання матеріалу в традиційної технології тривав довги роки. Є і інші проблеми. Так, у традиційної технології збирання й обробки мовних даних оновлення зібраного матеріалу є дуже проблемною задачею, тому що поточна обробка картотеки, пошук необхідних одиниц потрібують багато часу. Крім того, традиційна технологія практично унеможливлює доступ до мовних даних на відстані. Тому, деяки типи даних, - корпуси текстів,- існували в доволі обмеженому за обсягом вигляді (наприклад, у вигляді хрестоматій, добірок текстів).

 

Новітні інформаційні технології й технічни засоби (компютерні системи, системи зв’язку, мультимедійні системи) значно полегшили збирання мовних даних. З’явились достатньо продуктивні пристрої сканування тексту, ефективні програми розшифровуван-ня графічної інформації в суто текстовий формат (9.FineReader).

 

В галузі лексикографії, або словникарства, видавничи будинки використовують спеціально підготовлені корпуси текстів для укладання словників. Наприклад, Бірмін-гемський корпус англійської мови та відповідна база даних були використані видавни-цтвом Колінз для складання англомовних словників (10.див. Collins COUBUILD English Language Dictionary. London – Glasgo, 1987).

 

Через те, що комп’ютерні технології широко використовуються в друкарськії справі та засобах масової інформації, значно спрощеним стає процес отримання матеріалу: біль-шість газет та журналів, телепрограм мають електронні версії, яки можна знайти в Интер-неті.

 

Саме тому першим кроком в розширенні фактографії та екпериментальної бази в сучасній лінгвістиці стало створення корпусної лінгвістики. Цей бум спостерігається на протязі останнії десяти років, до нього залучилися мовознавці та інформатики десятків країн світу і який врешті-решт перетворює мовознавство на експериментальну науку.

 

Безпосереднім наслідком впровадження лінгвістичних корпучів як провідного техно-логічного інструментарію сучасного мовознавчого дослідження стало розширення меж опису мови. Сам лінгвістичний корпус у його найпростішому вигляді за своєю струк-турою нагадує спеціфичний словник, де реєстровою одиницею і водночас “лівою части-ною словникової статті” виступає певна лексема, а інтерпретаційною, “правою”, частиною є сумма “мікроконтекстів”, до яких входить реєстрова лексема у всіх її граматичних зна-ченнях.

 

Обсяги сучасних лінігвістичних корпусів сягають сотен мільонів слововживань, залу-чення до корпусів не тільки писемних, але й усних джерел, розширення їхніх функціо-нальних можливостей у бік багатомовності та удосконалення інструментарію свідчать про фундаментальність намірів учених, які намагаються охопити досліджувальну галузь (мо-ву) в усіх її проявах та повноті явищ. З пошиненням інформації в електронній формі ре-альною стала можливість зібрання значних масивів текстів у вигляді масивів лінгвістич-них даних за допомогою яких можна було б проводити різнопланові дослідження та ство-рювати прикладні мовно-інформаційні системи.

 

Зробимо спробу оцінити якими мусять бути обсяги лінгвістичних корпусів, на яких можна було б виконувати певні мовознавчі студії. Наприклад, репрезентативний об’єм дослідження функціонування лексичної системи української мови сягає 200,000 лексич-них одиниць. Такий масив охоплює приблизно 4 мільони граматичних форм слів. Для проведення статистично упевненого дослідження кожного слова в тексті необхідно мати хоча б 10 прикладів вживання кожного слова, що “тягне” за собою обсяг корпусу в 40 мільонів слововживань. Ось таким обсягом повинні оперувати сучасні мовознавчи ДОС-лідження, тобто 40-50 млн. слововживань. Враховуючи, що кодування одного українсь-кого слова в системі UNICODE при середній довжині 5-6 літер потребуватиме не меньше 10 байт, обсяг зазначеного масиву сягатиме 400-500 Мб, що цілком нормально для сучас-ного РС. Якщо ставити завдання проведення на корпусі досліджень інших феноменів мови – орфоепічних, синтаксичних, семантичних, когнитивних тощо – то, зрозуміло, обсяг тек-стового масиву лінгвістичного корпусу мусить значно збільшитися.

 

Саме можливость зібрання в стандартному сучасному РС таких, та навіть набагато біль-ших масивів текстової інформації, і побудови на цій базі експериментальних масивів лін-гвістичних даних й спровокувало той зріст активності в галузі корпусної лінгвістики, про який ішлося вище.

 

Технологічний стрибок створив, однак, інші, не меньш серьозні проблеми. Надмірний обсяг досліджуваних даних може й перешкоджати описанню досліджуваного феномена. Цей ефект виникає у двох випадках: по-перше, коли інформації надмірно багато, й, по-друге, коли відібраний мовний матеріал викривлює реальну картину функціонування мови відносно описуємого феномена. (Наприклад, вивчення функціонування виразу “по край-ней мере” в художніх творах Ф.М.Достоєвського потрібує аналізу більш ніж 500 вживань цього граматичного фразеологізма. Поміж тим, достатньо повне уявлення про реальну картину вживання з’являється після перегляду першіх 70-80 контекстів. Решта матеріалу не додає нічого нового (11.Баранов А.Н., Добровольский Д.О. Идиоматичность и идиоми// Вопроси языкознания, 1996, №5). Цей факт свідчить про те, що навіть потужні високо-швідкисні комп’ютери не знимають проблем планування експеріменту та прогнозування єтапу інтерпретації результатів дослідження. Таким чином, при накладанні першої й дру-гої ситуації – і матеріал занадто великий і він не відображує реальний узус – результати дослідження практично не піддаються розумному оцинюванню. В цьому сенсі дотепна метафора одного з піонерів корпусної лінгвістики У.Френсіса (12.Френсис У.И. Проблемы формирования и машинного представления большого корпуса текстов //Новое в зарубе-жной лингвистике. Вып. Х!У. Проблемы и методи лексикографии. М., 1983, С. 334-353), який порівняв процес формування корпусу зі спробою вичерпати океан цеберкою, не здається значним перебільшенням.

 

Закінчуючи перший етап екскурсу в історію виникнення та становлення корпусної лін-гвістики, слід зазначити ще один момент. Дуже швидко вчені переконалися, що саме по собі зібрання текстів дає дуже небагато можливостей щодо виконання цілеспрямованих досліджень мовного матеріалу. Постала необхідність мати тексти, в яких певні мовні фак-ти були б позначені належним чином, тобто “ промарковані ”, “ анотовані ”. Саме макруван-ня (розмітка, кодування, лінгвістичне анотування) текстів стало відмінною рисою лінг-вістичних корпусів від просто повнотекстових баз даних, яки, безумовно, відіграли роль основної технологічної передумови створення корпусів. Але якщо завдання розробки сис-теми маркування було досить давно розв’язане, а засоби стандартизовані, проблема авто-матичного, або навіть лише автоматизованого маркування лінгвістичних фактів у велико-му текстовому масиві виявилася доволі складною. І залежить вона від будови кокретної мови. Переваги сучасних інформаційних технологій полягають в мінімізації “ручної” пра-ці у процесі створення корпусів. Таким чином на сьогодня проблема автоматичного аноту-вання текстів за різними критеріями, залишається актуальною. Адже приписування грам-матичних, орфоепічних та інших параметрів вручную десяткам мільонів слів корпусу є нейздісненним.

 

Така постановка питання висуває доволі нові завдання перед лінгвістичною наукою. Проблема розташована у площині побудови формалізованих моделей лінгвістичної ком-петенції, апробації та веріфікації ціх моделей та створення на їхній основі ефективного ПЗ.

 

В наступних лекцях ми висвітлемо питання, пов’язані з визначенням поняття “корпус-ної лінгвістики”, зробимо спробу виділити системні ознаки корпусної лінгвістики як га-лузі прикладної лінгвістики, виявити об’єкт та предмет дослідження корпусної лінгвіс-тики як наукової дисципліни, а також розглянемо загальні принципи побудови лінгвіс-тичних корпусів з використанням сучасних комп’ютерних технологій, а саме:

- сформулюємо загальні вимоги до корпусу даних з точки зору користувача;

- розглянемо досвід створення корпусів даних для різноманітних дослідницьких проєктів.

 

Лекція 2 - 3




Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 969; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.