КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Системы поиска заданного текста
Развитие индустрии систем электронного документооборота, сопровождающееся ростом массивов обрабатываемых полнотекстовых документов, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта - систем обработки знаний.
Основной задачей, возникающей при работе с полнотекстовыми базами данных, является задача поиска документов по их содержанию. Однако, ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные, в частности, поисковыми машинами в интернет, зачастую не обеспечивают адекватного выбора информации по запросу пользователя.
Основная проблема заключается в сложности точной формулировки запроса – подбора ключевых слов, которые предстоит искать в телах документов. Это может быть связано с рядом причин, как то: недостаточным знанием пользователем терминологии предметной области, наличием в языке многозначных и синонимичных слов, и даже орфографическими ошибками в написании искомых слов, которые могут встречаться как в текстах, так и в самом запросе.
Другая фундаментальная причина заключается в том, что иногда пользователь не знает точно, какую именно информацию ему хотелось бы получить, имея лишь общее представление о границах своих интересов. Так, например, пытаясь расширить свою познания в области компьютерной лингвистики, на поисковом сервере AltaVista вы просто получите список из сотен тысяч документов, содержащих слова “computer“ и “linguistic". А ведь хотелось бы расклассифицировать найденный материал по тематическим группам, отражающим, к примеру, основные событиям и разработки в этой области! И хотя наиболее интересен тот материал, о присутствии которого вы вообще не догадываетесь, большинство поисковых машин предлагает найти информацию “под фонарем", а не там, где она зарыта!
Чтобы помочь в решении указанных проблем, мы разработали ряд технологий, предназначенных для автоматического анализа содержания текстовых документов и выявления основных смысловых единиц, работа с которыми призвана облегчить процессы визуализации и поиска информации. Выявление смысловых структур, в сжатом виде описывающих основное содержание текстового материала, основано на модели механизмов обработки информации правым полушарием человеческого мозга.
Многие годы разработчики “искусственного интеллекта" пытались научить компьютер логическому мышлению, основанному на манипулировании формализованным знаниями и правилами их преобразования. Такой тип мышления характерен для обработки информации левым полушарием мозга. Простейший пример левополушарной модели знаний представляют иерархические рубрикаторы, используемые в информационно-поисковых системах для классификации информации. Однако, ввиду неспособности ЭВМ к языковому мышлению, их возможности ограничены рамками изначально заложенной системы знаний. Проблема заключена в невозможности самообучения рубрикатора без участия человека.
В тоже время в мозге скрыты иные, более древние механизмы, позволяющие решать подавляющее число задач повседневной жизни без участия размышления. Эти механизмы, заключенные в правом полушарии, следует назвать ассоциативной статистической обработкой. Вся живая природа “обучалась" именно так – развивая ассоциации между связанными событиями и закрепляя рефлексы путем повторений.
Список литературы приведен в рабочей программе дисциплины.
Дата добавления: 2014-01-07; Просмотров: 231; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |