Системы поиска заданного текста

Развитие индустрии систем электронного документооборота, сопровождающееся ростом массивов обрабатываемых полнотекстовых документов, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта - систем обработки знаний.

Основной задачей, возникающей при работе с полнотекстовыми базами данных, является задача поиска документов по их содержанию. Однако, ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные, в частности, поисковыми машинами в интернет, зачастую не обеспечивают адекватного выбора информации по запросу пользователя.

Основная проблема заключается в сложности точной формулировки запроса – подбора ключевых слов, которые предстоит искать в телах документов. Это может быть связано с рядом причин, как то: недостаточным знанием пользователем терминологии предметной области, наличием в языке многозначных и синонимичных слов, и даже орфографическими ошибками в написании искомых слов, которые могут встречаться как в текстах, так и в самом запросе.

Другая фундаментальная причина заключается в том, что иногда пользователь не знает точно, какую именно информацию ему хотелось бы получить, имея лишь общее представление о границах своих интересов. Так, например, пытаясь расширить свою познания в области компьютерной лингвистики, на поисковом сервере AltaVista вы просто получите список из сотен тысяч документов, содержащих слова “computer“ и “linguistic". А ведь хотелось бы расклассифицировать найденный материал по тематическим группам, отражающим, к примеру, основные событиям и разработки в этой области! И хотя наиболее интересен тот материал, о присутствии которого вы вообще не догадываетесь, большинство поисковых машин предлагает найти информацию “под фонарем", а не там, где она зарыта!

Чтобы помочь в решении указанных проблем, мы разработали ряд технологий, предназначенных для автоматического анализа содержания текстовых документов и выявления основных смысловых единиц, работа с которыми призвана облегчить процессы визуализации и поиска информации. Выявление смысловых структур, в сжатом виде описывающих основное содержание текстового материала, основано на модели механизмов обработки информации правым полушарием человеческого мозга.

Многие годы разработчики “искусственного интеллекта" пытались научить компьютер логическому мышлению, основанному на манипулировании формализованным знаниями и правилами их преобразования. Такой тип мышления характерен для обработки информации левым полушарием мозга. Простейший пример левополушарной модели знаний представляют иерархические рубрикаторы, используемые в информационно-поисковых системах для классификации информации. Однако, ввиду неспособности ЭВМ к языковому мышлению, их возможности ограничены рамками изначально заложенной системы знаний. Проблема заключена в невозможности самообучения рубрикатора без участия человека.

В тоже время в мозге скрыты иные, более древние механизмы, позволяющие решать подавляющее число задач повседневной жизни без участия размышления. Эти механизмы, заключенные в правом полушарии, следует назвать ассоциативной статистической обработкой. Вся живая природа “обучалась" именно так – развивая ассоциации между связанными событиями и закрепляя рефлексы путем повторений.

Список литературы приведен в рабочей программе дисциплины.

<== предыдущая лекция	\|	следующая лекция ==>
Программы - переводчики и электронные словари	\|	Предмет договора. Форма и заключение договора

Поделиться с друзьями:

Дата добавления: 2014-01-07; Просмотров: 231; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.01 сек.