Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Лінгвістичні корпуси: вихідні поняття та інструментарій

2.1. Загальні положення.

Поняття “корпусна лінгвістика” охоплює ділянку як теоретичного, так і прикладного мовознавства, де дослідження проводяться за допомогою комп’ютерних лінгвістичних корпусів. В.А.Широков наголошує на принциповості вживання означення “комп’ютер-них” на відміну від традиційних паперових збірок інформації, які призначені для цілей лінгвістичного дослідження (наприклад, лексичні або словникові картотекі). (13.Широ-

ков В.А. та ін. Корпусна лінгвістика. К.: “Довіра”, 2005, с.11). Наведемо декілька прикла-дів сучасного розуміння корпусної лінгвістики, які належать самим представникам ціеї галузі мовознавства.

У.Френсіс визначає ЛК як “зібрання текстів, яке вважається репрезентативним стосовно даної мови, діалекту або іншої ділянки мови й призначене для використання в лінгвістичних дослідженнях” (14. Francis 1992: Language Corpora B.C. In: Jan Svartvik (ed.) Direction in Corpus Linguistics. Proceeding of Nobel 82, 4-8 Aug. 1991, Berlin-New York: Mouton de Gruyter.-P.17-35.).

Російський дослідник С.А.Шаров наводить три підходи до того, що можна вважати ЛК: 1. Корпусом може бути будь-яка колекція текстів з певної тематики, які є доступними в електронній формі (Корпус 1). 2. Колекція текстів, зібрана у відповідності до явно сформульованих правил і, можливо, розмічена (annotated) на певному рівні лінгвістичного аналізу (Корпус 2). Цьому визначенню як раз і відповідає Машинний Фонд російської мови (14. http:irlrus-cfrl.rema.ru/). У сучасних дослідженнях корпусної лінгвістики (15. McEnery,T and Wislon, A: Corpus Linguistics: An Introduction. 2nd edition, Edinburgh: Edinburgh University Press, 2001, p. 2-3) корпус тлумачать як репрезентативну колекцію текстів у розумінні Корпус 2, яка може адекватно представляти потенційно нескінченну множину текстів фіксованого типу у певному діахронічному зрізі (Корпус 3). При цьому репрезентативність, за С.А.Шаровим, передбачає, що колекція текстів є збалансованою за жанрами та функціональними стилями і вона має достатній обсяг вибірки за числом текстів та авторів, для того, щоб слугувати основою статистично достовірних досліджень лінгвістичних феноменів у текстах відповідної тематики.

В.П.Захаров подає таке визначення “Під назвою корпус текстів будемо розуміти великий, уніфікований, структурований, розмічений масив мовних (мовленнєвих) даних в електронному вигляді, призначений для певних цілей” (16. Захаров В.П. “Корпусная лінгвістика – 2004” на сайті htpp://dialog-21.ru/)

Школа О.С.Герда визначає ЛК текстів як великий за обсягом, представлений в електронному вигляді, уніфікований, структурований, розмічений і філологічно компетентний масив мовних даних, доповнений системою керування даними – універсальними програмними засобами для пошуку різноманітнох лінгвістичнох інформації та зручного представлення її широкому користувачеві (Герд О.С. Вступне слово на Міжнародній конференції “Корпусна лінгвістика – 2004”(17. http://www.phil.pu.ru/news/kllbd/corpling.htm).

 

У всіх наведених дефініціях усі детермінанти сдлва “масив” є суттєвими і встановлюють, чи є яке-небудь зібрання текстів корпусом. Найважливішим при створенні ЛК є поняття проблемної області, одиниці зберігання корпусу даних, спосіб репрезентації й зберігання корпусу текстів, тобто розмітка (анотування, маркування,…). Всі наведені поняття відмежовують корпуси текстів від простого зібрання електронних текстів (18. За-харов В.П. Чешский национальный корпус текстов: организация и способы использова-ния//Доклады научной конференции “Корпусная лингвистика и лингвистические базы данных” 5-7 марта 2002 г. – С-Пб., 2002.- С.72-79.).

Розмітка полягає в тому, що текстам корпусу та їхнім компонентам приписуються спеціальні мітки різних типів: зовнішні (елементи бібліографічного опису: видання, рік, автор тощо); структурні (описують структуру тексту: абзац, розділ, речення); лінгвістичні (лексикографічні, семантичні, синтаксичні та ін.).

 

<== предыдущая лекция | следующая лекция ==>
Традиційний та новий засоби збирання та обробки мовних даних | Лекція 3. Терміни та користувальницьки вимоги до лінгвістичного корпусу
Поделиться с друзьями:


Дата добавления: 2014-01-11; Просмотров: 1077; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.