КАТЕГОРИИ:

Главная
Случайная страница
Познавательное
Новые статьи
Контакты
Заказать работу

Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Етапи опрацювання тексту

Комп’ютерне редагування має свої специфічні розмежовані в часі етапи опрацювання тексту:

- передредагування, тобто попереднє ручне розмічування оригіналу, яке виконує людина з метою наступного автоматизованого чи автоматичного редагування, наприклад, задання для рубрик спеціальних стилів їх оформлення, розставлення міток у бібліографічному описі тощо;

- інтерредагування, яке виконує сама СР, проводячи операції контролю й виправлення тексту;

- постредагування, яке виконує людина, проводячи ті операції контролю й виправлення тексту, що їх не змогла виконати СР.

Комп’ютерне редагування здійснюють послідовно: від однієї одиниці до іншої. Закінчивши опрацювання на одному рівні, переходять до наступного (в напрямі від нижчих рівнів до вищих).

„Специфіка порівневого опрацювання полягає в тому, що переходити до вищого рівня можна лише тоді, коли на нижчому всі помилки вже усунуті (наявність помилки на нижчих рівнях унеможливлює опрацювання вищих). Для порівняння вкажемо, що під час традиційного редагування людина опрацьовує текст інтегрально, тобто охоплює одночасно кілька сусідніх рівнів” [1].

2.3 Комп’ютерний словник

2.3.1 Роль електронного словника для редагування текстів

Комп’ютерний словник для СР найчастіше створюють на основі частотного словника потрібної мови. Це викликане тим, що слова в тексті за частотою розподіляються згідно із законом Ципфа. Цей закон формулюють так: якщо для якогось досить великого тексту скласти список усіх слів, що вживаються в ньому, полічити для кожного слова частоту його вживання, розмістити слова в порядку спадання цих частот, перенумерувати ці слова від 1 (номер „1” присвоюють найбільш частому слову) до R, то добуток порядкового номера (рангу, r) будь-якого слова списку на його частоту появи в тексті (1) буде майже сталою величиною (с):

f∙r = c

На практиці це означає, що, коли перша тисяча слів частотного словника покриває близько 75% слів будь-якого тексту, то перші дві тисячі слів лише 80%, перші п’ять тисяч – лише 85% і т. д. Тобто, покриття тексту словами частотного словника відбувається дуже нерівномірно: невелика кількість слів із верхньої частини частотного словника покриває три чверті тексту, а більшість слів із нижньої його частини – решту, лише четверту частину.

Щоби забезпечити максимальне покриття тексту, яке істотно залежить від семантичного наповнення словника, часто чинять так: у комп’ютерному словнику виділяють словник загальновживаної лексики (загальний словник) і лексику окремих галузей знань (галузеві словники). У кожний галузевий словник, крім термінів і номіналів, включають також персоналії (власні імена й прізвища людей), географічні назви, скорочення та абревіатури. Далі для контролю тексту якоїсь конкретної галузі використовують загальний словник, а також добирають потрібний галузевий словник.

Комп’ютерниі словники, які використовують для редагування текстів, класифікують:

- за типом лексичних одиниць – словники словоформ, в яких слова подають у всіх їх словозмінних формах, і словники основ, у яких до основи кожного слова вказують всі її можливі закінчення;

- за наявністю блоків для аналізу морфем (префіксів, суфіксів, закінчень), за допомогою яких від основ можна утворювати нові похідні слова.

Для аналітичних мов (на зразок англійської) частіше використовують словники словоформ, а для синтетичних (як українська) – словники основ.

Кожен із цих словників має свої недоліки і переваги. Так, словник словоформ дуже легко можна створити, опрацювавши на комп’ютері достатньо великий масив текстів і записавши всі однакові слова у вигляді словника на комп’ютерний носій інформації. На жаль, такий словник за обсягом у кілька разів буде перевищувати аналогічний словник основ, який можна створити лише нетрадиційним способом. Тому інколи для синтаксичних мов використовують комбінований тип словників, в яких для найуживаніших словоформ подають також усі інші можливі закінчення.

2.3.2 Методи реконструкції

Операції виправлення значно складніші, ніж операції контролю. Вони дають змогу автоматично виправляти лише окремі знаки в словах. Серед цих методів найвідоміший абревіатурний, алфавітний, базовий, комбінаторний та цифровий. Розглянемо їх на прикладі алфавітного методу.

Для алфавітного методу кожен запис у реконструюючому словнику утворюють із чотирьох полів:

1) для запису правильного (нормованого) слова;

2) для запису довжини слова в знаках;

3) для запису алфавіту від „а” до „я”;

4) для позиційного запису кількості входжень літер у правильне слово. Подамо приклад такого запису:

поле 1: структура

поле 2: 9

поле 3: а б в г ґ д е є ж з и і ї й к л м н о п р с т у ф х ц ч ш щ ю я

поле 4: 1 1 2122

У такому словнику всі записи сортують за довжинами слів. Слова, довжина яких менша, ніж три літери, до словника не входять; їх реконструюють на основі окремого словника частовживаних слів.Редакторові як підказку видають слів-кандидатів для виправлення тексту (найчастіше до 10), з яких редактор повинен вибрати потрібне. Таке слово за командою редактора автоматично вставляється в текст на місце помилкового.

Ефективність алфавітного методу реконструкції за певних умов може досягати 0,8. Недоліками цього та інших методів реконструкції є те, що вони для слів малої довжини видають порівняно велику кількість слів-кандидатів.

Метод повністю автоматизованої реконструкції полягає в тому, що помилки в деяких частовживаних словах є однаковими у великій кількості людей, а тому можна задати їх автоматичне виправлення за допомогою реконструюючого словника підстановок (наприклад, завжди заміняти зпід на з-під, свойого на свого тощо). За допомогою такого словника можна контролювати й автоматично заміняти суржик і типові часто повторювані помилки.

2.3.3 Інтегрована лексикографічна система

„Словники України”

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

УКРАЇНСЬКИЙ МОВНО-ІНФОРМАЦІЙНИЙ ФОНД

Інтегрована лексикографічна система

Словники України

---------------------------------------------------------------------------

Передмова

Інтегрована лексикографічна система "Словники України" призначена для надання користувачам лексикографічної інформації. Вона складається з п'яти словникових підсистем-модулів – парадигматичної, транскрипції, фразеології, синонімічної та антонімічної.

---------------------------------------------------------------------------

Реєстр

Основу генерального реєстру системи "Словники України" складає реєстр Орфографічного Словника української мови, 2-е видання (К.: Довіра, 1999), який практично повністю відтворено й значно розширено в цій системі. Генеральний реєстр включає понад 150 тис. слів.

---------------------------------------------------------------------------

Парадигма

Парадигматичний модуль створено на основі розробленої в Українському мовно-інформаційному фонді НАН України словозмінної класифікації української лексики, в якій виділено за певними формальними ознаками близько 1500 парадигматичних класів для всіх відмінюваних повнозначних частин мови, а з урахуванням акцентуації - близько 3000 класів. Завдяки вказаній класифікації й розробленій процедурі парадигматизації побудовано повний перелік усіх граматичних форм для усіх лексичних одиниць, наведених у реєстрі. Це забезпечило візуалізацію усіх словоформ в усіх граматичних значеннях. Повне число словоформ для понад 150 тис. одиниць реєстру є порядку 3 млн. У модулі "Парадигма" користувач, вибравши в реєстрі будь- яке слово, автоматично одержує в правому вікні екранну таблицю всіх словоформ для вибраної реєстрової одиниці з поданням їх граматичних параметрів.

---------------------------------------------------------------------------

Транскрипція

Модуль "Транскрипція" забезпечує автоматизоване виведення за допомогою транскрипційних знаків інформації про артикуляцію лексичних одиниць реєстру згідно із сучасною літературною вимовою звуків. В основу модуля покладено інформацію, що міститься в Орфоепічному словнику української мови, перший том якого вийшов у серії "Словники України" (К.: "Довіра", 2001). Його реєстр тут значно розширено за рахунок слів, які пишуться через дефіс, словосполучень тощо.

---------------------------------------------------------------------------

Фразеологія

Фразеологічний модуль містить близько 56 тис. фразеологічних одиниць, які вживаються у сучасному українському мовленні. Фразеологізми є основою національного обличчя кожної мови; в них, як ні в якій жодній одиниці, яскраво виявляється специфічний національний колорит, особливості образного народного мислення, власне національне сприйняття "мовної картини світу", віддзеркалення характерних особливостей культури і побуту, народних звичаїв, символіки, історичного минулого. Фразеологічний модуль з достатньою повнотою передає фразеологічне багатство української мови на матеріалі літературної мови XIX-XX століть. Основою фразеологічного модуля послужили "Фразеологічний словник української мови" у 2-х книгах (К.: Наукова думка, 1993 та друге видання - 1999 рік), а також підготовлений до друку в серії "Словники України" новий "Фразеологічний словник української мови", де найповніше відображено загальновживану фразеологію української мови і дано всебічну лексикографічну характеристику фразеологізмів.

---------------------------------------------------------------------------

Синонімія

Модуль синонімії з достатньою повнотою подає синонімічне багатство української мови (на матеріалах літературної мови ХІХ-ХХ ст. та народнорозмовної лексики). Модуль синонімії створено на основі "Словника синонімів української мови" у 2-х томах, який було випущено в серії "Словники України", (К.:, Наукова думка, 1999-2000 рр). Модуль словника містить синонімічні ряди (близько 9200), що складаються зі слів або їхніх окремих значень, а також сталих словосполучень (номінативних та граматичних). Ядром кожного синонімічного ряду є його домінанта - лексична одиниця, що має найзагальніші для цього ряду семантичні особливості. У словниковій статті вона є реєстровим словом. Члени синонімічних рядів супроводжуються семантичними, граматичними та стилістичними характеристиками. Уживання синонімів ілюструється типовими для них контекстами - цитатним матеріалом із художньої, публіцистичної, наукової та ін. літератури й словосполученнями.

---------------------------------------------------------------------------

Антонімія

Основна частина модуля — словник антонiмiв, в якому подано понад 250 словникових статей. За змістом він відповідає Словникові антонімів української мови, який вийшов в серії "Словники України" у 1999 р. Загалом у модулі антонімів представлено понад 2200 компонентiв антонiмiчних пар, якi є у всiх частинах словникових статей.

---------------------------------------------------------------------------

Робота з системою

Доступ користувача до кожного з модулів інтегрованої лексикографічної системи "СЛОВНИКИ УКРАЇНИ" забезпечується інтерфейсною програмою. У лівому вікні інтерфейсної програми знаходиться українська абетка, а також частина реєстру словника, що починається з вибраної літери. У правому вікні - інформація, яка відповідає вибраному реєстровому слову словника, з яким працює користувач. Вибір необхідної лексикографічної функції (словника) здійснюється кнопками "Парадигма", "Транскрипція", "Фразеологія", "Синонімія", "Антонімія", розміщеними на верхній панелі програми. При натисканні на кнопки "Фразеологія", "Синонімія" або "Антонімія" у правому від реєстра стовпчику з'являються літери "Ф", "С" або "А", відповідно, біля реєстрових одиниць, наявних у складі певних фразеологізмів, синонімічних або антонімічних рядів.

Дружній програмний інтерфейс системи дозволяє користувачеві:

Вільно переходити від одного словника до іншого.

Переглядати зміст вибраного словника.

Проводити пошук слова у кожному з словників.

Для перегляду слів у словниках слід:

"Вибрати потрібний словник, натиснувши мишкою на одну з кнопок "Парадигма", "Транскрипція", "Фразеологія", "Синонімія", "Антонімія".

Вибрати літеру, з якої починається слово у лівій панелі інтерфейсної програми.

Використовуючи смуги прокрутки, можна переглядати слова на вибрану літеру

Для пошуку слів у словниках необхідно:

Вибрати потрібний словник, натиснувши мишкою на одну з кнопок "Парадигма", "Транскрипція", "Фразеологія", "Синонімія", "Антонімія".

Ввести необхідне слово у стрічці вводу.

Натиснути мишкою кнопку "Пошук".

У системі проведено досить глибоку індексацію текстів словникових статей, що містяться в модулях "Фразеологія", "Синонімія", "Антонімія". Регулярно не індексувалися лише невідмінювані неповнозначні частини мови, оказіоналізми, деякі діалектизми та рідковживані слова, деякі власні назви тощо. При індексуванні автори намагалися якомога повніше і глибше забезпечити зняття омонімії, у тому числі граматичної, що зроблено уперше в україномовних автоматизованих системах опрацювання мови. Завдяки проведеній індексації значно полегшується пошук інформації про лексичні одиниці. Так, подвійне натискання мишкою на будь-яке слово у правому (інформаційному) вікні програми забезпечує вибір його основної форми та автоматичний перехід до цього слова у реєстрі.

---------------------------------------------------------------------------

Фразеологія

гратися в кота і мишку

гратися в кота і мишку (рідше мишу) несхв., жарт. Бути нещирим, хитрувати, лицемірити і т. ін. Не придурюйся, Остапе, ми з тобою люди дорослі, і не годиться нам гратися в кота і мишку (М. Ю. Тарновський). гратися в кота-мишки. - І що ми вигадаємо? І далё гратимемося в кота-мишки? Адже коли-небудь змушені будемо розрубати цей гордіїв вузол! (В. Малик).

мов кіт до сала

як (мов, ніби і т. ін.) кіт до сала, зі сл. допастися і под. Жадібно, дуже енергійно. Допавсь, як кіт до сала (Укр. присл.).

<== предыдущая лекция	\|	следующая лекция ==>
Аспекти редагування	\|	Нормативна база редагування

Поделиться с друзьями:

Дата добавления: 2013-12-14; Просмотров: 1320; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2025) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.013 сек.