Виды поиска информации

При автоматическом поиске информации приходится преодолевать языковый барьер, возникающий между пользователем и ИПС в связи с имеющим место в текстах разнообразием форм представления одного и того же смысла. Этот барьер становится еще более значительным, если поиск приходится вести в разноязычных базах данных. Кардинальным решением проблемы здесь может быть машинный перевод текстов документов с одних языков на другие. Это можно делать либо заранее, перед загрузкой документов в поисковую систему, либо в процессе поиска информации. В последнем случае запрос пользователя должен переводиться на язык массива документов, в котором ведется поиск, а результаты поиска - на язык запроса. Такого рода поисковые системы уже работают в системе Internet. В ВИНИТИ РАН была также построена система Cyrillic Browser, которая позволяет производить поиск информации в русскоязычных текстах по запросам на английском языке с выдачей результатов поиска также на языке пользователя.

ПОИСК ИНФОРМАЦИИ

Важными характеристиками качества поиска информации являются его полнота и точность. Полнота поиска может быть обеспечена путем максимального учета парадигматических связей между единицами языка и речи (словами и словосочетаниями), а точность - путем учета их синтагматических связей. Существует мнение, что полнота и точность поиска находятся в обратной зависимости: меры по улучшению одной из этих характеристик приводят к ухудшению другой. Но это справедливо только для фиксированной логики поиска. Если эту логику совершенствовать, то обе характеристики могут улучшаться одновременно. Процесс поиска информации в полнотекстовых базах данных целесообразно строить как процесс диалогового общения пользователя с информационно-поисковой системой (ИПС), при котором он последовательно просматривает фрагменты текстов (абзацы, параграфы), удовлетворяющие логическим условиям запроса, и отбирает те из них, которые для него представляют интерес. В качестве окончательных результатов поиска могут выдаваться как полные тексты документов, так и любые их фрагменты.

Важной и перспективной задачей компьютерной лингвистики является построение лингвистических процессоров, обеспечивающих общение пользователей с интеллектуальными автоматизированными информационными системами (в частности с экспертными системами) на естественном языке или на языке, близком к естественному. Поскольку в современных интеллектуальных системах информация хранится в формализованном виде, то лингвистические процессоры, выполняя роль посредников между человеком и ЭВМ, должны решать следующие основные задачи: 1) задачу перехода от текстов входных информационных запросов и сообщений на естественном языке к представлению их смысла на формализованном языке (при вводе информации в ЭВМ); 2) задачу перехода от формализованного представления смысла выходных сообщений к его представлению на естественном языке (при выдаче информации человеку). Первая задача должна решаться путем морфологического, синтаксического и концептуального анализа входных запросов и сообщений, вторая - путем концептуального, синтаксического и морфологического синтеза выходных сообщений.

Концептуальный анализ информационных запросов и сообщений состоит в выявлении их понятийной структуры (границ наименований понятий и отношений между понятиями в тексте) и переводе этой структуры на формализованный язык. Он проводится после морфологического и синтаксического анализа запросов и сообщений. Концептуальный синтез сообщений состоит в переходе от представления элементов их структуры на формализованном языке к вербальному (словесному) представлению. После этого сообщениям дается необходимое синтаксическое и морфологическое оформление. Для функционирования лингвистических процессоров необходимо иметь в их составе процедуры морфологического, синтаксического и концептуального анализа и синтеза текстов, а также базу знаний, содержащую словари единиц языка и речи и их синтагматические и парадигматические характеристики. Эффективность лингвистических процессоров зависит не только от качества процедурных средств, но и от качества лингвистической базы знаний: насколько адекватно и полно представлено в ней многообразие явлений естественного языка. А качественную лингвистическую базу знаний можно создать только на основе широкого применения средств автоматизации. И основные базы знаний интеллектуальных информационных систем трудно создавать без использования средств автоматизации. При решении этой задачи не последнюю роль будут играть лингвистические процессоры, особенно если речь будет идти об автоматизированном извлечении фактографической информации из неформализованных текстов.

ПОИСК ИНФОРМАЦИИ
по ФОРМАЛИЗОВАННЫМ ЗАПРОСАМ

По мере развития электронной вычислительной техники росли объемы текстовой информации, хранимой в памяти ЭВМ и совершенствовались языковые и программные средства этих систем. Сначала поиск документов велся на основе их ПОДов, представленных числовыми кодами понятий. Затем числовые коды понятий стали заменяться на их наименования. Позднее в поисковые массивы стали вводиться заголовки и рефераты документов, и, еще позднее, появилась возможность вводить в ЭВМ полные тексты документов. В порядок дня встал вопрос о поиске документов в полнотекстовых базах данных. Вопрос этот весьма непростой. Ведь в текстах одни и те же явления могут описываться в терминах различной степени общности с привлечением различных выразительных средств естественных языков. Кроме того, тексты, как и устная речь, представляют собой линейные последовательности наименований понятий, а описываемые ими явления, как правило, многомерны. Возникает проблема адаптации традиционных форм представления речевой информации к возможностям электронной вычислительной техники (электронных “алгоритмических” машин). При этом приходится учитывать противоречивые требования к форме хранения информации в памяти ЭВМ: с одной стороны, для удобства человека необходимо хранить тексты в их “естественной форме” а, с другой стороны, для удобства выполнения процедур поиска информации над ними нужно надстраивать некоторую формализованную структуру. Вначале роль такой структуры выполняли поисковые образы документов, позднее – инверсная форма представления текстов и гипертекст.

При формулировке запросов с использованием операторов приходится, прежде всего, считаться с многообразием форм слов в текстах. Ведь в процессе поиска информации необходимо обеспечить отождествление слов запросов и документов, несмотря на различие их грамматических форм. Это можно делать тремя способами: 1) путем лемматизации (приведения к основной словарной форме) всех слов запросов и слов инверсного файла; 2) путем генерации для слов запросов всех их словоизменительных и словообразовательных форм; 3) путем усечения форм запросов. Первый способ представляется наиболее предпочтительным. Но при этом потребуется переформировывать и перезагружать в ЭВМ ранее накопленные массивы баз данных, что не всегда оказывается приемлемым. Применение второго способа приведет к резкому увеличению объема запроса (для русского языка, в случае генерации одних только словоизменительных форм, - в восемь раз). При третьем способе возникает опасность увеличения поискового “шума”. Но если применять усечение слов только на границах их словоизменительных основ и окончаний, то уровень шума может оказаться вполне приемлемым. В состав запросов желательно вводить синонимы и гипонимы слов (слова с более узким значением). Это можно делать вручную, но лучше этот процесс автоматизировать.

С самого начала появления автоматизированных документальных поисковых систем встал вопрос о качестве поиска. Дело в том, что часть документов, выдаваемых потребителю в результате автоматического поиска, оказывалась нерелевантной запросу (не отвечающей ему “по смыслу”), а часть релевантных документов, содержащихся в поисковом массиве, ему не выдавалась. Первое явление получило название “поисковый шум”, второе – “потери информации”. Для количественной оценки этих явлений были введены понятия коэффициента шума и коэффициента потерь. Коэффициент шума полагался равным отношению количества нерелевантных документов к общему количеству документов, выданных в результате поиска, а коэффициент потерь – отношению количества релевантных документов, не найденных в поисковом массиве, к общему количеству таких документов, содержащихся в поисковом массиве. Были введены также понятия коэффициента точности поиска и коэффициента его полноты. Значение коэффициента точности полагалось равным дополнению до единицы значения коэффициента шума, а значение коэффициента полноты - дополнению до единицы значениякоэффициента потерь.

Другой метод решения проблемы обеспечения полноты и точности поиска состоит в использовании концепции гипертекста. Обычно гипертекст (hypertext) определяется как технология работы с текстовыми данными, позволяющая устанавливать ассоциативные связи – “гиперсвязи” между отдельными терминами, фрагментами документов и статьями в текстовых массивах и благодаря этому допускающая не только последовательную, линейную работу с текстом, как при обычном чтении, но и произвольный доступ к информации и ее ассоциативный просмотр в соответствии с установленной структурой связей. Гипертекстовые связи представляют собой по существу перекрестные ссылки, которые дают возможность мгновенного обращения к нужным фрагментам информации. Эти связи наиболее эффективны тогда, когда они используются при поиске в больших массивах информации, расчлененных на множество мелких ассоциированных по смыслу фрагментов и когда пользователю в каждый данный момент требуются только небольшие объемы информации. Гипертекст наиболее эффективно используется в мультимедийных коммерческих вычислительных системах.

Гипертекст представляет собой некоторую сеть, узлы которой соответствуют некоторым блокам информации, а дуги – ассоциативным связям между ними. Узлом гипертекста может быть фрагмент текста, рисунок, фотография, движущееся или мультипликационное изображение, звуковая речь или музыкальное произведение и даже выполняемая программа. Если часть данных является нетекстовой, то о конечном продукте говорят как о мультимедийной системе (multimedia, hypermedia). Инверсные файлы и гипертекстовое представление информации часто используются совместно, в одной и той же поисковой системе. При этом инверсные файлы обеспечивают начальное обращение к фрагментам текстов по запросам, а гипертекст дает возможность продолжать поиск, используя ассоциативные связи между этими фрагментами.

Совершенствование логики поиска в инверсных файлах может происходить по следующим направлениям:
1. Представление слов в их входных словарях не в текстовой форме (что обычно практикуется в настоящее время), а в нормализованной форме. Это позволит более эффективно использовать при поиске парадигматические связи между словами. Эти связи могут быть выявлены путем словоизменительного и словообразовательного морфологического анализа слов.
2. Использование машинных словарей синонимов, гипонимов и гиперонимов для автоматического установления таких парадигматических связей между словами, которые не выявляются средствами морфологического анализа. Эти словари могут применяться как для “избыточного” индексирования запросов (обогащения их синонимами и гипонимами), так и для “избыточного” индексирования документов (для дополнения нормализованных слов поисковых словарей их синонимами и гиперонимами).
3. Использование машинных тезаурусов для установления парадигматических связей между словосочетаниями, которые не сводятся к парадигматическим связям слов, входящих в эти словосочетания.

Важным направлением повышения эффективности и комфортности поиска информации в полнотекстовых базах данных является также разработка ИПС, в которых пользователям предоставляется возможность формулировать запросы на естественном языке.

Для того чтобы произвести поиск нам необходимо задать некоторое условие, при выполнении или невыполнении которого поиск будет считаться успешным или неуспешным соответственно. Несмотря на то, что любой поиск - поиск с условием, я бы выделил три характерных типа поиска: полнотекстовой (позиционный), поиск с запросом (выборка), инкрементный поиск (позиционный). В скобках приводится уточнение, чтобы Вам было понятно, о чем идет речь, поскольку всегда есть возможность программной эмуляции того или иного визуального эффекта при поиске.

Полнотекстовой поиск - самый простой вид поиска, при котором поиск информации производится во всем объеме данных - по всему объему текста или по всем полям базы данных. И это его главное преимущество. Нам не нужно знать, как и где хранится информация, мы просто ищем ее. Примером может послужить поиск строк в документе Word. Существенный недостаток данного поиска - уменьшение скорости поиска при увеличении объема данных. Это делает невозможным применение такого механизма для поиска информации в достаточно большой структуре данных. Представьте, например, текстовой документ Word c 10 тыс. страниц, где искомая строка находится, например, на последней странице. Поисковый механизм будет последовательно просматривать весь текст, страница за страницей, пока не найдет запрашиваемую строку. Это займет немало времени. А представьте, что таких страниц миллиарды! Вот почему полнотекстовой поиск в сети Интернет невозможен! Однако на сайте такой поиск можно более или менее успешно реализовать.

Поиск с запросом - под данным типом поиска мы будем понимать поиск информации в базе данных. Этот тип поиска наиболее универсальный, поскольку с помощью него можно производить поиск информации в огромных базах данных. Наглядный пример - поиск информации в поисковых системах или товара в интернет-магазине, например, по названию, коду, цене и др.

Инкрементный поиск. Честно говоря, я не знаю точного определения данного вида поиска, но идея его в том, что поиск осуществляется после каждого нажатия на клавишу, при котором происходит изменение строки поиска - при обычном поиске мы сначала вводим строку поиска, а затем нажимаем клавишу "Enter" или кнопку "Найти" для запуска механизма поиска. При инкрементном поиске кнопка "Найти" не нужна, поскольку поиск начинается сразу после нажатия на любую алфавитно-цифровую клавишу, Del или Backspace. Инкрементный поиск - быстрый поиск с постепенным уточнением.

Существуют два критерия нахождения информации - по точному или произвольному соответствию строке запроса. Реализация поиска на точное совпадение строке запроса означает, что будут найдены только те записи, в которых в точности присутствует данная строка запроса. Реализация поиска на произвольного совпадение приведет к поиску записей, в которых точно содержатся все фрагменты строки запроса.

Давайте в качестве примера возьмем следующие записи:

Аппарат Кипа
Прибор для демонстрации атмосферного давления
Прибор для изучения зависимости сопротивления проводника от температуры
Прибор для демонстрации видов деформации

Важно отметить, что посетитель может вводить как слово целиком, так и его фрагмент, например, "Магнитофон" - слово, а "Магнитоф" - фрагмент. Поэтому посетитель, в общем случае, составляет строку запроса не из слов, а из одного или нескольких фрагментов, хотя в большинстве случаев он все-таки вводит слова!

Также предположим, что поиск нечувствителен к регистру букв.

<== предыдущая лекция	\|	следующая лекция ==>
Типы файлов	\|	Инкрементный поиск

Поделиться с друзьями:

Дата добавления: 2014-01-14; Просмотров: 2894; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2026) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.012 сек.