Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Электронные тезаурусы. WordNet как самый известный проект




Идеографическая БД должна отражать семантическую иерархию

Вопросы планирования словарной базы данных

Гнездовой принцип расположения информации в тезаурусе

Идеографическая лексикография

Ввод текста неограниченного объема (например, иллюстраций из художественной литературы)

Логический (boolean)

Текстовый (text)

Ввод специализированных индексов или нумерации лексических и грамматических категорий

Числовой (number)

Строки содержат одинаковое число столбцов, но столбцы могут содержать разные виды данных.

Программные модули

Формы

Элементы СУБД

В универсальной СУБД можно сконфигурировать макро- и микроструктуру любого словаря. Возвращаемся к вопросу об АРМ лексикографа.

Печать

Верстка и оригинал-макет

Редактирование в тексте и БД

Компиляция в текст

Редактирование в БД

Ввод в БД

Словарные статьи

Корпус текстов

Этапы создания современного словаря

Графическая разметка статьи (пример из БТС)

Этимологическая информация.

Микроструктура обычного толкового словаря

заголовочная единица («лексический вход», вокабула, лемма);

№ значения;

грамматическая информация;

стилистическая информация;

толкование;

иллюстрации;

производные единицы;

фразеология;

НÓТА –ы, ж. [от лат. nota – знак, замечание]. Дипл. Официальное дипломатическое письменное обращение правительства одного государства к другому. Н. протеста. Обмен нотами. < Нóтный, -ая, -ое.

Микроструктура конкретной статьи может быть неполной!

Словарь – заведомо формализованный источник

однако он делается для людей, способных элементарно «разрезать» словарные статьи.

Неполная формализация!

словник иллюстрации

Корпус и словарь

Еще раз: Конкорданс – залог качественной выборки!

Словарь и база данных

Для быстрой индексации, поиска, сплошного редактирования информации и т.п. применяются универсальные системы управления базами данных (СУБД).

Например, рядовому пользователю приложений Microsoft наиболее известна и доступна MS Access – СУБД, интегрированная в пакет MS Office.

Таблицы

Фильтры – запросы – отчеты

Таблицы

Строка = запись (record) БД

Столбец = поле (field) БД

Типы информации в БД
Наиболее актуальны для словаря:

ввод символьной подстроки ограниченного объема (например, стилистическая помета)

ввод информации, которую можно представить в двоичном формате (например, переходность/непереходность глагола)

Мемо, примечание (memory)

Пример записи в таблице
БД словаря

Объект «форма» как словарная карточка

Связанные таблицы в БД (упрощенный пример)

Исследования, которые привели к появлению Принстонского WordNet’а (PWN), были начаты в 1985 году.

Текущая версия PWN содержит более 117,000 синсетов (синонимических рядов), которым соответствуют примерно 150,000 различных словарных входов (отдельных слов и фраз).

PWN успешно используется для решения широкого круга задач: снятия лексической неоднозначности, автоматического реферирования, семантического поиска, классификации и кластеризации документов, обработки поисковых запросов, машинного перевода и т. д.




Поделиться с друзьями:


Дата добавления: 2015-07-02; Просмотров: 492; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.007 сек.