КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Электронные тезаурусы. WordNet как самый известный проект
Идеографическая БД должна отражать семантическую иерархию Вопросы планирования словарной базы данных Гнездовой принцип расположения информации в тезаурусе Идеографическая лексикография Ввод текста неограниченного объема (например, иллюстраций из художественной литературы) Логический (boolean) Текстовый (text) Ввод специализированных индексов или нумерации лексических и грамматических категорий Числовой (number) Строки содержат одинаковое число столбцов, но столбцы могут содержать разные виды данных. Программные модули Формы Элементы СУБД В универсальной СУБД можно сконфигурировать макро- и микроструктуру любого словаря. Возвращаемся к вопросу об АРМ лексикографа. Печать Верстка и оригинал-макет Редактирование в тексте и БД Компиляция в текст Редактирование в БД Ввод в БД Словарные статьи Корпус текстов Этапы создания современного словаря Графическая разметка статьи (пример из БТС) Этимологическая информация. Микроструктура обычного толкового словаря заголовочная единица («лексический вход», вокабула, лемма); № значения; грамматическая информация; стилистическая информация; толкование; иллюстрации; производные единицы; фразеология; НÓТА –ы, ж. [от лат. nota – знак, замечание]. Дипл. Официальное дипломатическое письменное обращение правительства одного государства к другому. Н. протеста. Обмен нотами. < Нóтный, -ая, -ое. Микроструктура конкретной статьи может быть неполной! Словарь – заведомо формализованный источник однако он делается для людей, способных элементарно «разрезать» словарные статьи. Неполная формализация! словник иллюстрации Корпус и словарь Еще раз: Конкорданс – залог качественной выборки! Словарь и база данных Для быстрой индексации, поиска, сплошного редактирования информации и т.п. применяются универсальные системы управления базами данных (СУБД). Например, рядовому пользователю приложений Microsoft наиболее известна и доступна MS Access – СУБД, интегрированная в пакет MS Office. Таблицы Фильтры – запросы – отчеты Таблицы Строка = запись (record) БД Столбец = поле (field) БД Типы информации в БД ввод символьной подстроки ограниченного объема (например, стилистическая помета) ввод информации, которую можно представить в двоичном формате (например, переходность/непереходность глагола) Мемо, примечание (memory) Пример записи в таблице Объект «форма» как словарная карточка Связанные таблицы в БД (упрощенный пример) Исследования, которые привели к появлению Принстонского WordNet’а (PWN), были начаты в 1985 году. Текущая версия PWN содержит более 117,000 синсетов (синонимических рядов), которым соответствуют примерно 150,000 различных словарных входов (отдельных слов и фраз). PWN успешно используется для решения широкого круга задач: снятия лексической неоднозначности, автоматического реферирования, семантического поиска, классификации и кластеризации документов, обработки поисковых запросов, машинного перевода и т. д.
Дата добавления: 2015-07-02; Просмотров: 492; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |