КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Поиск информации с помощью Интернета
Поиск информации с помощью файловой системы Поиск информации Цель: поиск информации при ее сборе, во время хранения в базе данных и в Интернете. Действия: 1. При сборе информации 2. При хранении информации - файловая система: определение имени файла и место его нахождения (жесткий диск компьютера или информационной системы, оптический диск, флешка, внешний жесткий диск, другие внешние носители информации) - реляционная база данных: 3. В Интернете: выбор провайдера, подключение к Интернету, выбор поисковой системы, определение ключевого слова или набора ключевых слов, Для того чтобы воспользоваться хранящейся информацией, эту информацию нужно найти. Информация обычно хранится в компьютере, в информационной системе, которые территориально расположены в разных местах. Информация может передаваться на каком-то физическом носителе: в виде электрического сигнала по проводам, в виде электромагнитной волны, в виде оптического сигнала по оптоволоконному кабелю, в виде звукового сигнала, на бумажном носителе и т.д. Поиск информации зависит от структуры хранения информации на физическом носителе. В персональном компьютере используется файловая структура, состоящая из папок и файлов. В папке могут находиться несколько папок и несколько файлов. Количество их ограничивается объемом памяти физического носителя. Файловая структура имеет иерархическую структуру, в виде дерева. Зная название папки и название файла можно найти нужный файл. Поиск информации в реляционной базе данных[2] Реляционная база данных представляет собой набор таблиц (сущностей). Таблицы состоят из столбцов и строк (кортежей). Внутри таблиц могут быть определены ограничения, между таблицами существуют отношения. При помощи языка запроса можно выполнять запросы, которые возвращают наборы данных, получаемых из одной или нескольких таблиц. В рамках одного запроса данные получаются из нескольких таблиц путем их соединения, чаще всего для соединения используются те же столбцы, которые определяют отношения между таблицами. Доступ к реляционным базам данных осуществляется через реляционные системы управления базами данных (РСУБД). Практически все системы баз данных, которые используются в настоящее время, являются реляционными. Когда хранящаяся информация находится территориально от пользователя на значительном расстоянии, для поиска и передачи информации используется глобальная сеть Интернет. Глобальная сеть не имеет одного владельца и управляется организацией, созданной на общественных началах. Каждый компьютер в сети Интернет имеет свой адрес, состоящим из 32-х разрядов и адресуется четырьмя отдельными друг от друга десятичными числами, разделенными точкам. Адрес компьютера выглядит следующим образом: 19.223.192.205. 205– адрес компьютера. 192 – адрес подсети. 19.223 – адрес сети. Такой адрес называется IP-адресом. Для удобства пользователя существует в Интернете Доменная Служба Имен (DNS), которая позволяет каждый компьютер назвать по имени. Доменный адрес www.microsoft.com означает, что www – имя компьютера в домене Microsoft.com, com домен коммерческой организации. Имена компьютеров в разных доменах могут повторяться.. Один компьютер в сети может иметь несколько DNS-имен. Домены имеют несколько уровней. Домен первого уровня обычно определяет страну расположения сервера или вид организации (gov-правительственная организация). При вводе доменного имени www.mrsu.ru, компьютер преобразует его в адрес. Для этого компьютер делает запрос DNS-серверу, в котором хранятся адреса серверов имен доменов первого уровня ru. Получив адрес сервера имени домена (ru), компьютер связывается с этим сервером и запрашивает у него адрес запрашиваемого сервера mrsu. От сервера msru получает имя www. Пересылка в Интернет осуществляется пакетами, каждый пакет содержит адреса компьютеров получателя и отправителя, передаваемые данные и порядковый номер пакета в общем потоке данных. В компьютере-получателе из пакетов формируется файл, который бал заказан. Но более эффективно для адресации использовать не просто доменный адрес, а унифицированный указатель ресурса – URL, который дополнительно к доменному адресу содержит указания на используемую технологию доступа к ресурсам и спецификацию ресурса внутри файловой структуры компьютера. Например, в URL: http://engec.ru/user/lab/met.htm, где: http – протокол передачи гипертекста, используемый для доступа. В подавляющем большинстве случаев используется именно этот протокол; www.engec.ru – доменный адрес web-сервера СПбГИЭУ. Адреса большей части серверов начинаются с префикса www, указывающего на то, что www-сервер на данном компьютере запущен; user/lab/met.htm – спецификация файла met.htm. Указывается путь к интересующему нас файлу в файловой системе компьютера и имя того файла. Когда адрес компьютера, на котором находится файл, неизвестен и неизвестно название файла, то нужную информацию можно найти с помощью поисковой системы используя «ключевое слово». Компоненты поисковой системы: Spider (паук) – программа для скачивания НТМL текстов без графической части Crawier – программа обработки найденных ссылок и направляет паука по этим ссылкам Indexer – программа анализа найденного текста Database – база данных всех найденных и обработанных текстов html страниц Search engine result engine программа, которая решает какая страница соответствует введенному запросу, в каком порядке должны быть отсортированы html страницы Web server- сервер, который взаимодействует с пользователем и поисковой системой. Чтобы из всех htmlстраниц найти нужные данные и не просматривать все страницы, используется алгоритм поиска обратных индексов. Поэтому для поиска с большим количеством данных разработали алгоритм поиска обратных индексов. Согласно этого алгоритма поисковая система превращает html страницу текстовый документ виде списка слов с номерами страниц, где они находятся. Задача поисковой системы это поиск htmlстраниц в своей базе данных, их сортировка и выдача в порядке релевантности. Под релевантностью понимают степень соответствия найденной информации по отношению к запросу в поисковой системе.
Дата добавления: 2014-01-06; Просмотров: 320; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |