Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Интеллектуальная техника анализа текстов в Google. Ключевые слова, логические операции в поисковой системе, морфологический анализ. Операторы поиска




Из средств компьютерных технологий, в рамках этой темы, рассмотрим основы работы и поиска информации в Интернете, работу с FineReader и СУБД Ассess.

Интернет — всемирная корпоративно управляемая совокупность объединенных компьютерных сетей, построенная на использова­нии протокола IP и маршрутизации пакетов данных.

Интернет образует глобальное информационное пространство, служит физи­ческой основой для Всемирной паутины (WWW, World Wide Web) и множества других систем (протоколов) передачи данных.

Всемирную паутину образуют миллионы веб-серверов сети Интернет, распо­ложенных по всему миру. Веб-сервер является программой, запускаемой на подключенном к сети компьютере и использующей протокол HTTP для передачи данных. В простейшем виде такая программа получает по сети HTTP-запрос на определенный ресурс, находит соответствующий файл на локальном жёстком диске и отправляет его по сети запросившему компьютеру. Более сложные веб-серверы способны динамически распределять ресурсы в ответ на HTTP-запрос. Для идентификации ресурсов (зачастую файлов или их частей) во Всемирной паутине используются единообразные идентификаторы ресурсов URI (англ. Uniform Resource Identifier). Для определения местонахождения ресурсов в сети используются единообразные локаторы ресурсов URL (англ. Uniform Resource Locator). Такие URL-локаторы сочетают в себе технологию идентификации URI и систему доменных имен DNS (англ. Domain Name System) — доменное имя (или непосредственно IP-адрес в числовой записи) входит в состав URL для обозначения компьютера (точнее — одного из его сетевых интерфейсов), который исполняет код нужного веб-сервера.

Единицей сети Интернет является локальная вычислительная сеть (ЛВС), сово­купность которых объединяется некоторой региональной (глобальной) сетью (ве­домственной или коммерческой).

Чаще всего локальные сети построены на технологиях Ethernet или Wi-Fi. Тех­нологии локальных сетей реализуют, как правило, функции только двух нижних уровней модели OSI (англ. open systems interconnection basic reference model —базовая эталонная модель взаимодействия открытых систем): физического и канального. Функциональности этих уровней достаточно для доставки кадров в пределах стандартных топологий: «звезда» (общая шина), «кольцо» и «дерево».

На высшей ступени региональные сети соединяются с одной из так называемых опорных сетей Интернет (в действительности региональные сети могут быть связаны между собой без выхода на опорную сеть). В качестве соединительных линий в Интернете используются проводные линии связи, оптоволоконные, радиосвязь и спутниковая связь и др.

Очень упрощенно структуру Интернета можно представить следующей схемой:

Рис. 2.1 - Схема организации Интернета

Здесь:

ХК: хост-компьютер (сервер) — мощная ЭВМ, обеспечивающая выполнение за­просов клиентов;

Р: роутер (маршрутизатор) — ЭВМ, управляющая адресацией информации;

ПР: провайдер — сервисная фирма, обеспечивающая доступ в Интернет (обыч­но платный) и имеющая мощный компьютер или комплекс.

Работа в Интернете может выполняться в нескольких режимах, поддержива­емых соответствующими протоколами обмена данных. Это следующие режимы:

1) Терминальный режим — программы клиентов выполняются на узловом сервере сети. Протокол ТСР/IP.

2) Интерактивный (dialup-IP) SLIP/PPP.

3) Пакетный. Протокол UUPC.

Наиболее часто используется протокол ТСРЯР, где TCP — обеспечивает передачу сообщений фрагментами, сборку и проверку переданного документа; IP — обеспечивает доставку информации конкретному адресату, т. е. каждый ХК в сети имеет свой уникальный IP-адрес в виде записи, состоящей из четырех десятичных чисел (от 0 до 255), разделенных точками (в случае версии протокола IPv4), например 192.168.1.254, или (в случае IPv6) в виде записи, состоящей из восьми групп, разделенных двоеточием, состоящих из четырех шестнадцатеричных цифр, например fe80: 0: 0: 0: 200: f 8f f: fe21: 67cf.

Пользователь сети (организация или частное лицо) в Интернете идентифицируется именем пользователя и именем домена, разделенных знаком @ Интернет предоставляет следующие возможности:

1) Поиск и просмотр информации (WWW).

2) Доступ к удаленным базам данных (WAIS).

3) Связь и удаленный доступ к другим ПК (Telnet, RDP).

4) Группы новостей, подписки и т. д. (RSS).

5) Средства, в которых пользователи могут направлять свои сообщения и знакомиться с имеющимися (форумы, социальные сети).

6) Электронная почта (POP3, IMAP).

7) Разговор текстом на экране в режиме реального времени (IRC, ICQ, Skype).

8) Пересылка файлов (FTP, P2P).

Все возможности Интернета реализуются с помощью специализированного программного обеспечения.

Большинство информационных ресурсов находятся на серверах узлов Интернета, имеющих универсальные URL-адреса (локатор URL).

Изначально локатор URL был разработан как система для максимально естественного указания на местонахождение ресурсов в сети. Локатор должен был быть легко расширяемым и использовать лишь ограниченный набор ASCII-символов (к примеру, пробел никогда не применяется в URL). В связи с этим возникла следующая традиционная форма записи URL:

<схема>://<логин>:<пароль>@<хост>:<порт>/<URL-путь>?<па-раметры>#<якорь>

В этой записи:

схема — схема обращения к ресурсу; в большинстве случаев имеется в виду сетевой протокол;

логин — имя пользователя, используемое для доступа к ресурсу;

пароль — пароль указанного пользователя;

хост — полностью прописанное доменное имя хоста в системе DNS или IP-адрес хоста в форме четырех десятичных чисел, разделённых точками; числа — целые в интервале от 0 до 255; порт — порт хоста для подключения;

URL-путь — уточняющая информация о месте нахождения ресурса (зависит от протокола);

параметры — строка запроса с передаваемыми на сервер (методом GET) пара-метрами.

Разделитель параметров — знак &.

якорь — идентификатор «якоря», ссылающегося на некоторую часть (раздел) открываемого документа. С развитием AJAX в этой части стали размещать параметры для JavaScript на странице, и страница в зависимости от указанного якоря может в браузере выглядеть по-разному. Для обеспечения возможности индексирования подобных страниц поисковыми системами компания Google предложила подход, предполагающий использование знака! в начале якоря и некоторую поддержку на сервере сайта.

Общепринятые схемы (протоколы) URL включают:

ftp — Протокол передачи файлов FTP;

http — Протокол передачи гипертекста HTTP;

https — Специальная реализация протокола HTTP, использующая шифрование (как правило, SSL или TLS) и применяемая в системах, предъявляющих повышенные требования к безопасности (например, в системах клиент-банк https://ibank.ros-bank.ru, https://esk.sbrf.ru и т.д.);

gopher — Протокол Gopher;

mailto — Адрес электронной почты;

news — Новости Usenet;

nntp — Новости Usenet через протокол NNTP;

irc — Протокол IRC;

prospero — Служба каталогов Prospero Directory Service;

telnet — Ссылка на интерактивную сессию Telnet;

wais — База данных системы WAIS;

хтрр — Протокол XMPP (часть Jabber);

file — Имя локального файла;

data — Непосредственные данные (Data: URL);

Экзотические схемы URL:

afs — Глобальное имя файла в файловой системе Andrew File System;

cid — Идентификатор содержимого для частей MIME;

mid — Идентификатор сообщений для электронной почты;

mailserver — Доступ к данным с почтовых серверов;

nfs — Имя файла в сетевой файловой системе NFS;

tn3270 — Эмуляция интерактивной сессии Telnet 3270;

z39.50- Доступ к службам ANSI Z39.50;

skype — Протокол Skype;

smsto — Открытие редактора SMS в некоторых мобильных телефонах;

ed2k — Файлообменная сеть eDonkey, построенная по принципу P2P;

market — Android Маркет.

Наиболее эффективной службой для поиска информации в Интернете является World Wide Web (всемирная паутина) или просто Web, использующая гипертекстовое представление информации (протокол HTTP).

Для обзора информации, полученной от веб-сервера, на клиентском компьютере применяется специальная программа — веб-браузер. Основная функция веб-браузера — отображение гипертекста. Всемирная паутина неразрывно связана с понятиями гипертекста и гиперссылки. Большая часть информации в Вебе представляет собой именно гипертекст. Для облегчения создания, хранения и отображения гипертекста во Всемирной паутине традиционно используется язык HTML (англ. Hyper Text Markup Language), язык разметки гипертекста. Работа по разметке гипертекста называется версткой, мастера по разметке называют веб-мастером или вебмастером (без дефиса). После HTML-разметки получившийся гипертекст помещается в файл, такой HTML-файл является основным ресурсом Всемирной паутины. После того, как HTML-файл становится доступен веб-серверу, его начинают называть «веб-страницей». Для улучшения внешнего вида веб-страниц используют технологию каскадных таблиц стилей (CSS), которая позволяет задавать единые стили оформления для множества веб-страниц. Набор веб-страниц образует веб-сайт. В гипертекст веб-страниц добавляются гиперссылки. Гиперссылки помогают пользователям Всемирной паутины легко перемещаться между ресурсами (файлами) вне зависимости от того, находятся ресурсы на локальном компьютере или на удаленном сервере.

В среде Web для повышения эффективности поиска целесообразно, кроме непосредственного ввода URL адресов, применять поисковые серверы и каталоги Web, использующие ключевые слова, наиболее крупными из которых являются google.com, yandex.ru, bing.com.

Браузеры постоянно развивались со времени зарождения Всемирной паутины и с ее ростом становились всё более востребованными программами. Ныне браузер — комплексное приложение для обработки и вывода разных составляющих веб-страницы и для предоставления интерфейса между веб-сайтом и его посетителем. Практически все популярные браузеры распространяются бесплатно или «в комплекте» с другими приложениями: Internet Explorer (совместно с Microsoft Windows), Mozilla Firefox (бесплатно), Safari (совместно с Mac OS X и бесплатно для Microsoft Windows), Opera (бесплатно, начиная с версии 8.50), Google Chrome (бесплатно), Avant (бесплатно).

Статистика за март 2011 года утверждает, что 95% персональных компьютеров находится под управлением той или иной версии операционной системы Microsoft Windows. Начиная с версии Windows 98, штатной программой данного семейства операционных систем для просмотра веб-сайтов является Internet Explorer (IE)

Однако выбор штатного браузера, в конечном итоге, упирается в предъявляемые к браузеру конечным пользователем требования. Кому-то достаточно «просто программы», а кому-то нужны мощные средства по отладке, плагины, минималистичный интерфейс и мощный менеджер закачек.

Тем не менее, основные принципы работы с любым браузером в среде любой операционной системы совпадают.

Перед началом работы необходимо ввести в поле для ввода адресов доменное имя сервера или (опционально) ввести его ip-адрес непосрдественно. Следует отметить, что браузеры Firefox, Opera, Chrome (Chromium) также позволяют вводить в адресную строку поисковый запрос, так, как будто это сделано в поле специального поиска

Opera и Firefox в штатной поставке предлагают также в поле специального поиска варианты для места поиска.

После завершения поиска в рабочей части экрана появляется начальная страница информации, где выделены цветом и подчеркнуты гиперсвязи, что можно использовать для быстрого знакомства с документом и поиска нужной информации. Для исключения повторов при просмотре цвет использованных связей меняется

Поиск по нужному слову в длинных документах можно выполнить с помощью комбинации клавиш [Ctrl+F]. Вернуться к предыдущей просмотренной странице можно с помощью клавиши [Backspace]. При поиске можно открыть несколько страниц, которые будут храниться в кэше на винчестере. Все современные браузеры поддерживают вкладки, но расход памяти при работе с большим количеством вкладок у всех браузеров разный. Следует учитывать, что открытие большого количества страниц с ActiveX/Flash содержимым может существенно замедлить работу системы. В частности, ввиду особенностей устройства движка браузера компании Гугл, отдельные страницы создают отдельный процесс в памяти (механизм песочницы).

Для тех браузеров, в которых главное меню присутствует в неявной форме, к нему можно получить доступ, нажав клавишу [Alt].

Сохранение необходимой информации выполняется отметкой необходимого фрагмента документа, копированием в текстовый редактор или записью на винчестер с использованием комбинации клавиш [Ctrl+S]. Каждый браузер имеет свои особенности сохранения, какие-то пытаются сохранить страницу со скриптами, какие-то видоизменяют html-код. В результате имеем разный размер для сохраненной страницы (рис. 2.10, а-Firefox, б-Opera, в-Chromium, г-IE6, д-IE8).

Независимо от браузера, нажатие клавиши [ПРОБЕЛ] вызовет пролистывание страницы, [Home], [End] вернут фокус вверх и вниз страницы соответственно.

При необходимости в любом браузере можно осуществить печать, нажав на клавиатуре [Ctrl+P]. При необходимости распечатать не весь веб-сайт, а отдельные фрагменты текста, можно перед нажатием [Ctrl+P] выделить необходимый фрагмент и при печати указать опцию «Печатать выделение». Также весьма удобным представляется предварительное копирование текста с веб-страницы в Windows-приложение Блокнот (gedit, kedit для Linux) для очистки текста от специальных веб-символов и последующего копирования подготовленного фрагмента текста в текстовый редактор с настройкой размера и стиля шрифта

Поиск в Гугле

Каждый раз в списке найденных страниц Гугл показывает отрывок из текста на странице, выделяя в этом отрывке ключевые слова. Тем самым облегчается обнаружение ключевых слов в тексте.

Второй способ увидеть ключевые слова — загрузить страницу по ссылке «Сохранено в кэше». Недостаток этого способа (а иногда это рассматривается как преимущество) — в том, что вы видите не ту страницу, которая есть сегодня, а ту, которая сохранена в базе Гугла.

Третий способ — традиционный для просмотра текста в браузере — использовать сочетание клавиш [Ctrl+F]. Появится окно «найти», в которое вводятся искомые слова. Раскладка клавиатуры, установленная в этот момент на компьютере, значения не имеет.

Логическое «И»

По умолчанию при написании слов запроса через пробел Гугл ищет документы, содержащие все слова запроса. Вам не нужно вводить оператор «and» между словами запроса. Помните, что порядок расположения слов влияет на результаты поиска. Чтобы еще больше сузить область поиска, задавайте дополнительные условия.

Гугл игнорирует общие слова и символы на некоторых языках, такие как «где» и «как», а также некоторые одиночные цифры и буквы, так как они замедляют поиск и не влияют на качество результатов.

Если общее слово необходимо для получения нужных результатов, то его можно включить в условие поиска, поставив перед ним знак «+». (Перед знаком «+» обязательно должен быть пробел.)

Еще один способ включения общего слова — это поиск по словосочетанию. Просто поместите два или более слов в кавычки. Общие слова не исключаются из поиска по словосочетанию.

Гугл НЕ чувствителен к регистру букв. Все буквы воспринимаются как прописные, вне зависимости от того, как их вводили в поисковую строку.

Логическое «ИЛИ»

Пишется с помощью оператора OR или с использованием вертикальной черты «|». Обратите внимание, что оператор OR должен быть написан заглавными буквами.

Интересно, что Гугл может показать и те страницы, на которых нет ключевых слов, но эти слова содержатся в ссылках на показанную страницу. В таком случае при просмотре страницы с помощью ссылки «Сохранено в кэше» будет видна надпись: «Эти слова присутствуют только в ссылках на эту страницу: Windows Linux».

Морфологический поиск

Гугл умеет склонять слова. То есть, где это улучшит результаты поиска, Гугл будет искать не только слова из запроса, но и их формы. Например, для запроса «как лечить ожог» будут также найдены страницы, содержащие «лечение ожогов», для «звон колокола» —«колокольный звон», для «футбол английский чемпионат» —«чемпионат Англии по футболу», а для «русификация ICQ» —«русификатор ICQ».

Морфологический поиск можно отключить в любой момент, поставив оператор + перед словом или взяв слово в кавычки. Например, для запроса [звон + колокола] или [звон «колокола»], будет найдено только точное вхождение слова колокола, а колокольный звон найден не будет.

Иногда нужны результаты поиска, содержащие точное словосочетание. В этом случае просто возьмите условия поиска в кавычки.

Поиск по словосочетанию особенно эффективен при поиске имен собственных («Иван Грозный»), цитат («белеет парус одинокий») или популярных высказываний («Счастливые часов не наблюдают»).

Поскольку Гугл выдает все слова, которые вы вводите в запросе, имеет смысл составлять новые запросы, содержащие те слова, которые вы забыли ввести в начале поиска, но нашли в ходе его выполнения в найденных текстах. В ряде случаев это может помочь улучшить поиск. Если же добавлять эти слова к уже имеющемуся запросу, то можно иногда излишне сузить диапазон результатов.

 

Литература:

Основная:

1. Компьютерные технологии в науке и образовании. Методические указания к практическим занятиям / Сост. В.Н.Арефьев.- Ульяновск, Ул-ГТУ, 2001.– 42 с.

2. Основы информационно-библиотечной культуры: учеб.-метод. пособие. М.: МГПУ, 2005.- 50 с.

3. Березовский В. С., Стеценко И. В. Создание электронных учебных ресурсов и онлайновое обучение: [Учебн. пособ.] / В. С. Березовский, И. В. Стеценко. — К.: Изд. группа BHV, 2013. — 176 с.

4. Изюмов А. А. Компьютерные технологии в науке и образовании: учебное пособие /А. А. Изюмов, В. П. Коцубинский. — Томск: Эль Контент, 2012. — 150 с.

 

Дополнительная:

1. Советов Б.Я. Информационные технологии: [Учебн. пособ.] / Б.Я.Советов, В.В. Цехановский. — М.: Высш. шк., 2003. — 263 с.

 

 


 

Тема 3: Компьютерные технологии в теоретических исследованиях

 

Время: 2 часа

Вопросы:

1. Состав и методы теоретических исследований.

2. Основные этапы исследовательской работы, классификация методов исследований. 3. Компьютерная поддержка научных исследований: виды используемого программного обеспечения.

4. Экспертные системы.

 

Основные понятия: общенаучные методы: абстрагирование, идеализация, формализация, анализ и синтез, обобщения, математические методы: аналитические, численные, оптимизационные, вероятностно-статистические, эвристические приемы и методы: инверсия, универсальность, самообслуживание, ассоциации, аналогии, логические методы, экспертные системы

 

Цели:

— ознакомить студентов с системами сбора, обработки и хранения научной информации;

— овладеть навыками обработки и анализа полученных результатов с учетом имеющихся литературных данных и умением представлять полученные в исследованиях и самостоятельной работе результаты в информационном виде;

— обеспечить в процессе лекции творческую работу студентов совместно с преподавателем;

— воспитывать у студентов профессионально-деловые качества, любовь к предмету, развивать у них самостоятельное творческое мышление.

 

 




Поделиться с друзьями:


Дата добавления: 2017-02-01; Просмотров: 96; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.073 сек.