КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Основные задачи технологии текстового поискаТехнология текстового поиска Т Текст является одной из основных форм обмена информацией в обществе. Поэтому текстовые сообщения преобладают в информационных системах. Наиболее распространенными системами технологии обработки текста являются системы текстового поиска. Их задача заключается в том, чтобы находить в заданных коллекциях на естественном языке такие документы, которые удовлетворяют информационным потребностям пользователей. Технологии текстового поиска имеют дело с информацией. Это могут быть статьи из газет и журналов, технические руководства, отчеты, книги, письма, законодательные акты и пр. Т Основной единицей информации в системах текстового поиска является документ - объем информации, обладающий законченным содержанием и какого-либо рода уникальным идентификатором. Системы текстового поиска оперируют электронными документами - документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае если программно доступны отдельные элементы текстового документа. Поэтому недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-то графического файла. Необходимо иметь документ в оцифрованном виде - формате, когда каждый компонент текста программно доступен. Представление текстового документа в оцифрованном виде создается с помощью: • ввода содержания, документа с клавиатуры с использованием какого-либо текстового редактора; • сканирования его с бумажного носителя и использования программы распознавания оптических символов; • генерации текста программным путем распознавателями голоса и другими способами. Современные технологии текстового поиска охватывают большой спектр проблем: • теория информационного поиска; • методы удовлетворения потребностей пользователей в: -сборе информации; -организации информации; -хранении информации; -поиске информации; -распространении информации; · обеспечение интерфейсов между пользователем и средствами управления ресурсами неструктурированной или слабоструктурированной информации, поддерживаемой в компьютерной среде. Т Значительное место в технологиях текстового поиска занимает обработка естественного языка. Под ней понимается компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относится к области искусственного интеллекта. В середине 1990-х гг. во многих странах мира развернулись работы, связанные с созданием электронных библиотек. Они в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как: • обнаружение информации в глобальной компьютерной сети; • текстовый поиск в Web; • мультиязыковой поиск. Активное развитие технологий текстового поиска стимулировало создание поисковых систем более общего класса, которые имеют дело не только с текстовыми документами, но и с информацией, представленной в различных иных средах. В таких мультимедийных системах содержание объектов поиска - документов - представляет собой сочетание: • текстовых элементов; • статических изображений; • музыкальных произведений; • мультфильмов; • видеоклипов и т. п. Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных систем, называемых системами управления документами, которые широко используются в настоящее время во многих крупных коммерческих компаниях и в других организациях. В таких системах важная роль отводится не только методам обработки естественного языка, созданным для работы с текстовыми документами, но и организации групповой разработки документов, их хранения, распространения, а также технологиям текстового поиска.
Дата добавления: 2014-01-07; Просмотров: 375; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |