Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Программы – экстракторы




Программы – экстракторы предназначены для автоматизации процесса компрессии текста с сохранением в сжатом тексте (реферате) основного смысла исходного текста.

Принцип действия простейших программ – экстракторов основан на автоматизированном поиске ключевых слов, что было описано выше. Сжатый текст – реферат – представляет собой смысловой портрет исходного текста в терминах фраз, содержащих ключевые слова, т.е. набор, список предложений реферируемого текста, которые содержат ключевые термины содержания. Обычно, имеется возможность настраивать «подробность» получаемого реферата. Конечно, это еще не полноценный реферат, так как тезисы в основном не связаны между собой стилистически, а просто выбраны из текстов по принципу наличия в них наиболее часто встречающихся слов (в реферат включаются предложения, содержащие слова, частота встречаемости которых превышает установленный пользователем порог). Однако и такой подстрочник реферата оказывается достаточно информативным, чтобы составить общее представление о тексте и уяснить его основные мысли.

В качестве примера программы автоматического реферирования, работающей с русским текстом, можно привести разработанную фирмой «Научно-производственный инновационный центр «Микросистемы» программу TextReferent, которая в свою очередь, является составной частью более мощной системы автоматического анализа текста TextAnalyst. Демонстрационная версия этой программы доступна бесплатно на сайте фирмы http://www.analyst.ru/index.php?lang=rus&dir=&id=body&left=menu.txt.

 

Система TextAnalyst (текущая версия 2.01), разработана в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю кроме реферирования текста следующие основные возможности:

· анализ содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;

· анализ содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем;

· смысловой поиск с учетом скрытых смысловых связей слов запроса со словами текста;

· кластеризация информации - анализа распределения материала текстов по тематическим классам;

· автоматическая индексация текста с преобразованием в гипертекст;

· ранжирование всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;

· автоматическое/автоматизированное формирование полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации.

В исходном тексте выделяются цветом и подчеркиваются термины, которые TextAnalyst предлагает использовать в качестве ключевых слов, терминов, отражающих смысловое содержание работы. Пользователь может исключить часть этих слов или добавить другие, что будет учтено программой в дальнейшей работе.

Как уже было отмечено выше, реферат в виде списка наиболее информативных с точки зрения формального наличия в них предложений исходного текста весьма примитивен в стилистическом отношении. Кроме того, составленный по такому принципу реферат не может отражать семантику контекста.

Существуют системы автоматического реферирования текстов, основанные на использовании методов искусственного интеллекта, позволяющие формировать реферат путем генерации стилистически весьма совершенных грамматических конструкций, в том числе, и с учетом семантики контекста.

 

С обзором систем автоматического реферирования текстов можно познакомиться, например, в публикации Удо Хан, Индерджиет Мани в журнале
Открытые системы, №12/2000, электронная версия которой размещена в сети Интернет по адресу http://www.osp.ru/os/2000/12/067.htm

 

Добавить Показатели сложности лингвистических конструкций текста

 




Поделиться с друзьями:


Дата добавления: 2014-01-03; Просмотров: 681; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.011 сек.