Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Стратегия и методика профессионального информационного поиска

 

Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации - справочники или поисковые машины - не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как Google, отражают не более трети совокупного содержания Сети. Причина этого - постоянный колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, содержит огромное число белых пятен.

Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов.

В тоже время многие крупные сайты имеют собственную систему поиска, которая отражает весь их информационный массив. Выявив такие сервера с помощью справочников, можно провести более детальное их обследование, использовав локальный поисковый механизм. Например, при поиске сведений о конкретном виде креветки, искусственно разводимой человеком, весьма рациональным будет найти и просмотреть сервера, посвященные в целом аквакультуре, отрасли, занимающейся выращиванием морепродуктов в искусственных теплых водоемах, а при выявлении данных о конкретном заболевании - сервера учреждений, ведущих исследования данной области. Таким образом, для достижения наиболее полных результатов следует применять справочники и поисковые системы в сочетании друг с другом.

Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных.

1. Для поиска материалов по крайне узкой специфической тематике стоит начинать с мета-машин, дабы сразу получить представление о том, насколько богато данная проблематика представлена в Интернет.

2. Для получения более полных результатов по сложному запросу (например, там, где есть ограничения не только по содержанию документа, но и по дате обновления или местоположению документов) поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала.

3. При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам. Так, например, при поиске материалов на испанском языке стоит обращаться не к глобальным, а к испанским поисковым системам, например, Trovator (http://www.trovator.com).

4. Формировать запрос надо максимально точно, используя все возможности механизма составления запроса. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска. При точном формировании запроса процент информационного шума будет намного ниже.

5. При составлении запроса на текстовый материал всегда стоит мысленно представить, каким может быть предполагаемое содержание документа. При поиске источников об А.С. Пушкине недостаточно просто ввести его фамилию (список результатов будет изобиловать адресами всевозможных учреждений, расположенных на улицах Пушкина в разных городах). Гораздо больший эффект принесет поиск по фамилии в сочетании с названиями произведений поэта. Для разысканий же полных текстов произведений, наоборот, стоит вводить в поисковую строки из произведения, которые однако не являются расхожими фразами (например, для поиска полного текста поэмы "Евгений Онегин" не стоит использовать "Мой дядя самых честных правил", гораздо лучший результат принесет "Когда на бледном небосклоне звезд исчезает хоровод " или другая характерная, но не столь распространенная точная фраза).

При систематическом обращении к поисковым средствам, необходимо постоянно следить за новостями, относящимися к поисковому сервису. В окружающем нас мире вообще, а в цифровом мире тем более, нет ничего вечного. Каждая поисковая система переживает периоды зарождения, расцвета и упадка. Не бойтесь отказаться от использования любимой, но устаревающей поисковой системы и перейти на использование новых поисковых инструментов, обладающих большей эффективностью.

Примеры выполнения запросов:

Задача: Выявить сайты с пародиями на фильм "Титаник".

Запросы такого рода относятся к простейшим и выполняются с помощью справочников. В данном случае следует обратиться к Yahoo!. Внутри справочника нужно выбрать раздел ФИЛЬМЫ (MOVIES) в категории ДОСУГ/РАЗВЛЕЧЕНИЯ (ENTERTAINMENT). В пределах категории, все содержание которой ограничено кинотематикой, можно осуществить непосредственный поиск путем ввода в поисковую строку слова Titanic. При этом в условии поиска не забыть сократить зону поиска - "Just this category" вместо "All Yahoo". В перечне выданных ссылок выбрать Anti-Titanic или Parody.

Задача: Выявить материалы по электронной доставке документов, расположенные на серверах в Великобритании.

Для разысканий могут быть использованы поисковые машины, способные легко ограничивать поиск рамками отдельной страны, т.е. Google, Fast Search, Alta Vista.
В Google запрос будет иметь вид: [+"electronic document delivery" +domain:uk] - фраза "электронная доставка документов" в серверах домена uk (Великобритания). В случае необходимости выявить только основные материалы запрос обретет вид: [+title:electronic document delivery +domain:uk]. Похожий вид этот запрос будет иметь в Fast Search и AlltheWeb.

Задача: Найти материалы о разведении староанглийской овчарки (бобтейл) на русском языке.

Для разыскания может быть использована любая отечественная поисковая система. Правильно составленный запрос имеет вид: в Яндекс [разведение староанглийской овчарки бобтейл]; в Rambler и Апорт [+разведение +староанглийская +овчарка бобтейл].

Задача: Найти репродукции картины Pablo Picasso "La Guernica".

Задача может быть решена с помощью любой системы, обладающей специальными функциями поиска изображений: Alta Vista, Google и Fast Search. В поисковую строку в режиме поиска иллюстраций достаточно ввести название картины в виде фразы в кавычках "La Guernica". В ответ система выдает ссылки на искомые документы.
В российском сегменте Интернет иллюстрации аналогичным же образом могут быть найдены с помощью Яндекс или Апорт.
При поиске иллюстраций, однако, необходимо знать, что все поисковые системы при индексировании графических файлов опираются исключительно на формальный критерий - имена файлов и подписи к ним. При этом имена файлов чаще всего имеют английское написание. При поиске поэтому рекомендуется использовать условие ИЛИ при указании названия файла. Примером может служить запрос в Яндекс при поиске изображений лидера группы ДДТ Юрия Шевчука: [Шевчук | shevchuk].
При необходимости исчерпывающего поиска иллюстративных материалов обязательным требованием является обращение не только к специализированным функциям "поиск изображений" в различных системах, но и требование непосредственного просмотра страниц, содержательно связанных с искомым предметом. Хорошим примером в данном случае служит поиск изображений Степана Бандеры. Запрос в Яндекс "Степан Бандера" приносит несколько иллюстраций не очень высокого качества. Последовательный же просмотр первых двух десятков страниц, найденных машиной в ответ на аналогичный текстовой запрос, позволяет увеличить число и качественный состав иллюстраций в несколько раз. Дело в том, что в серьезных профессиональных изданиях имена файлов иллюстраций имеют числовое значение, а подписи к иллюстрациям вообще не делаются, так как электронная версия конвертируется из оригинал-макета печатного издания, в котором данная информация попросту отсутствует. Кроме того, имена файлов зачастую имеют сокращенную форму, что также не позволяет произвести их поиск с использованием специальных функций. В данном примере из-за описанных причин потеряна полная оригинальными иллюстрациями статья "Цвета знамени Степана Бандеры: Новый взгляд на лидера украинских националистов"//Лабиринт времен (http://www.hist.ru/bandera.html), Автобиографические материалы (http://www.bluz.lviv.ua/other/bandera.html) и некоторые другие интересные источники.

Задача: Представить адреса не менее трех аудиофрагментов музыкальной темы из кинофильма "Взвод" ("Platoon").

Запрос относится к наиболее сложным, поскольку первоначальные сведения крайне скудны. В ходе поиска необходимо расширить информационное поле, в частности постараться узнать оригинальное название музыкального произведения и его автора. Для разыскания используется Alta Vista, обладающая специальной функцией поиска аудиофрагментов. Первоначальный запрос состоит из слова Platoon в поисковой строке в режиме поиска Audio. Среди полученных результатов находим те, которые, безусловно, относятся к фильму. В одной из ссылок встречаем название музыкальной темы: "Adagio for strings". Вторично в режиме Audio задаем запрос: [Platoon Adagio for strings]. В перечне уточненных результатов находим автора: Samuel Barber. За счет полученных данных расширяем запрос, который принимает теперь вид: [+Adagio for strings +Barber]. Построенный таким образом поиск приносит в первом десятке несколько ссылок на данное музыкальное произведение на различных сайтах.

СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ FineReader (FR)

FR предназначена для автоматизации ввода в ПК типографских доку­ментов. Работает в среде Windows. Обеспечивает распознавание до 99,6% символов. Время обработке 1-й страницы < 1 мин.

Работа в FR выполняется в три этапа: сканирование, распознавание, ре­дактирование.

Сканирование выполняется при физически и программно установленном сканере. Для качественности распознавания перед началом работы в диалоговом окне установки сканера (пункт Scаn&Read) задаются необходимые парамет­ры: тип изображения, формат, ориентация, разрешение и яркость.

Распознавание, т.е. формирование системой истинного образа докумен­та, включает настройку системы на документ, разбиение документа на блоки и распознавание блоков.

Редактирование документа включает корректировку, орфографический контроль и сохранение текста. Проверка орфографии производится с помощью встроенной в FR систе­мы Lingvo Corrector, которая позволяет находить ошибки и неуверенно рас­познанные слова, корректировать ненужные пробелы и т.п.

При некачественности сканируемого документа используется распозна­вание с обучением. (При этом пользователь, просматривая документ, выделяет плохо различимые символы и объявляет их названия системе, кото­рая использует их при дальнейшей работе.

Основы работы в FineReader будут освоены на лабораторных занятиях.

АВТОМАТИЗИРОВАННЫЙ ПЕРЕВОД В СИСТЕМЕ Promt

Система обеспечивает перевод с множества языков на рус­ский и обратно.

Автоматизированный перевод обычно включает этапы:

1. Первоначальный перевод.

2. Повышение качества перевода.

3. Постредактирование.

Первоначальный перевод начинается с загрузки исходного текста или его непосредственного набора.

Перевод может выполняться по абзацам, по выделенным фрагментам, весь текст и т.д.

Повышение качества перевода достигается за счет:

- резервирования слов, не требующих перевода (названия, специальные термины, сокращения). Здесь иногда удобно также применять транслитирование слов - запись буквами нужного языка (Иванов - Ivanov);

- подключения специализированных словарей по определенной тематике (например, по информатике, химии) и пользовательских словарей, обеспечивающих настройку на конкретный текст;

- пополнения словарей.

Для качественности перевода его целесообразно выполнить дважды, при этом в первом варианте перевода выясняют:

1. Какие слова не переведены (выделяются другим цветом)?

2. Какие слова и словосочетания переведены неудачно?

3. Какие слова следует оставить без перевода?

Такие слова включают в пользовательский словарь, резервируют или ис­правляют средствами редактора. После этого перевод повторяют.

Постредактирование заключается в смысловом редактировании переве­денного текста. Здесь используются возможности внутреннего редактора сис­темы с использованием команд пункта Правка. Для облегчения поиска абзацев между переводом и оригиналом существует постоянная связь.

Отредактированный текст может быть дополнительно проверен с помо­щью справочных словарей или систем проверки орфографии. Полученный перевод записывается в файл или распечатывается непосредственно из Promt (можно сохранить и оригинал).

Система Promt может взаимодействовать с другими приложениями Windows следующими способами:

- переводом текста в буфере обмена;

- установлением связи с приложениями;

- встраиванием перевода внутрь приложений.

Основы работы в Promt будут освоены на лабораторных занятиях.

<== предыдущая лекция | следующая лекция ==>
Несколько советов по поиску | Кт в теоретических исследованиях
Поделиться с друзьями:


Дата добавления: 2014-01-03; Просмотров: 1135; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.026 сек.