Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Поисковые машины в Интернете

ПОИСКОВАЯ СИСТЕМА В ИНТЕРНЕТЕ

В Интернете хранится огромное количество полезной информации, но на поиски нужной может потребоваться много времени. Это одна из основных проблем, послужившая поводом к появлению поисковых машин. Поисковые машины Интернета связаны с базами данных, которые содержат каталоги значительной части информации, доступной в Интернете. Поисковые машины снабжены программами, которые делают индексацию баз данных, а люди-библиотекари классифицируют, сортируют и превращают Web в открытую для поиска среду. Несмотря на то, что существует более 100 поисковых машин и инструментов просмотра, пользователи нередко испытывают неудовлетворенность, вызванную трудностями при поиске необходимой им информации. И основным вопросом на сегодняшний день остается не наличие той или иной информации в Интернете, а вопрос о том, где ее искать[17].

Поисковые машины состоят из трех основных элементов. Первым элементом является индексатор, или, как его еще называют, «паук». Индексатор считывает информацию с web-страницы и переходит по ссылкам на другие страницы этого же webсайта. Web-сайты просматриваются регулярно, раз в месяц или раз в два месяца; это необходимо, чтобы следить за изменениями. Все данные о найденной информации поступают во вторую часть поисковой машины, индекс, или, как его иногда называют, каталог. Это что-то вроде огромной книги, которая хранит оглавление каждой найденной индексатором web-страницы. При изменении web-страницы обновляется и информация о ней в индексе. Иногда новые страницы или изменения попадают в каталог не сразу. А пока данные о web-странице не попали в каталог, страница недоступна для поисковой машины. Программное обеспечение поисковой машины — ее третья составляющая. Эта программа просеивает миллионы записанных в каталог страниц, чтобы найти информацию, отвечающую цели поиска, и затем ранжирует их по степени соответствия заданной цели. Поисковые машины, разработанные для анализа web-сайтов, базируются на использовании запросов. Пользователь набирает слова или фразы, соответствующие интересующей его теме.

Специальная программа (паук) «ползет» по Web-у и, затем, используя специальные алгоритмы поиска, за несколько секунд находит требуемые данные. Отвечая на поисковый запрос, поисковая машина перебирает миллионы источников и находит адреса соответствующих документов. Поисковые машины выдают аннотированные списки гиперссылок на соответствующие Интернет страницы. Если щелкнуть мышью по гиперссылке, то соответствующий ей адрес будет использован для нахождения текста, изображений и ссылок на другом компьютере. Поисковые машины Интернета со своими огромными каталогами web-страниц непрерывно совершенствуют алгоритмы поиска и расширяют свою функциональность. Каждая поисковая машина обладает индивидуальностью (имеет свои особые характеристики) и работает по-своему. Работа многих поисковых машин считается вполне успешной. Однако все современные системы страдают некоторыми серьезными недостатками[18]:

1. Поиск по ключевым словам дает слишком много ссылок, и многие из них оказываются бесполезными.

2. Огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.

3. Методы индексирования баз данных, как правило, семантически не связаны с информационным содержанием.

4. Неадекватные стратегии поддержки каталогов часто приводят к тому, что выдаются ссылки на информацию, которой уже нет в Интернете.

5. Поисковые машины еще не столь совершенны, чтобы понимать естественный язык.

6. При том уровне доступа, который обеспечивают современные поисковые машины, практически невозможно сделать обоснованный вывод о полезности источника.

В последнее время потребности в интеллектуальной помощи быстро растут: помощь необходима для продуктивного поиска информации, для нахождения в необъятном Интернете или корпоративной сети специализированной информации. Это привело к появлению интеллектуальных агентов[19]. Обычно интеллектуальные агенты являются составной частью поисковой машины. Некоторые особо продвинутые программы похожи на живых ассистентов. Для поиска и сортировки информации используются технологии искусственного интеллекта. Такая поисковая машина «думает» и действует сама. Пользователь обучает агента, затем агент отправляется на поиски в Интернет, чтобы из миллионов доступных документов выбрать нужные и дать им оценку. Пользователь может в любой момент «отозвать» интеллектуального агента и посмотреть, как продвигается работа, или продолжить его обучение на основе найденной информации, что сделает поиск еще более точным. В таблице 3 приведены примеры интеллектуальных агентов и их характеристики.

Интеллектуальные агенты выполняют ряд инструкций от имени пользователя или другой программы, могут работать независимо и иметь некоторую степень автономности в сети. Между интеллектуальными агентами и Java-апплетами существуют некоторые различия. Java-апплеты загружаются из Интернета и работают на машине пользователя. Интеллектуальные агенты фактически выходят в сеть и ищут приложения, помогающие завершить задание, выполняют свою миссию удаленно, освобождая компьютер пользователя для других задач. Когда цель достигнута, они извещают пользователя об окончании работы и представляют ему результаты.

Интеллектуальные агенты способны «понимать», какая именно информация нужна пользователю. Агенты могут быть запрограммированы на изменение поведения в зависимости от накопленного опыта и взаимодействий с другими агентами. Обобщенные характеристики интеллектуальных агентов могут быть представлены следующим образом:

• Интеллектуальность — обучение на основе обратной связи, по примерам, ошибкам и посредством взаимодействия с другими агентами.

• Простота использования — можно «тренировать» агентов, используя естественный язык.

• Индивидуальный подход — агенты адаптируются к предпочтениям пользователя.

• Интегрированность — непрерывное обучение, применение уже имеющихся знаний к новым ситуациям, развитие ментальной модели.

• Автономность — агенты способны «ощущать» окружающую среду и реагировать на ее изменение, умеют делать выводы.

Таблица 3

Примеры интеллектуальных агентов и их характеристики[20].

Масштабы информационных ресурсов и их количество в Интернете непрерывно расширяются. Становится ясно, что централизованная база данных, характерная для поисковых машин, не является удовлетворительным решением. Интеллектуальные агенты — это совершенно новое направление, лежащее в основе следующего поколения поисковых машин, которые смогут фильтровать информацию и добиваться более точных результатов. Например, Hyperlink-Induced Topic Search Engine, разработанная Джоном Клейнбергом из Корнэльского университета. Эта поисковая система не занимается «охотой» за ключевыми словами. Система анализирует естественную структуру Web в поисках «сообществ» страниц, относящихся к конкретному предмету, затем выясняет, какие из этих страниц считаются значимыми с точки зрения самих авторов страниц. Эта идея аналогична показателям цитируемости, которые давно используются в академическом сообществе. Такой подход более эффективен и надежен, чем традиционный поиск по ключевым словам.

<== предыдущая лекция | следующая лекция ==>
Состав и структура пользователей Интернета | Проблемы функционирования и развития сети
Поделиться с друзьями:


Дата добавления: 2014-01-06; Просмотров: 1380; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.01 сек.