КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Стратегия и методика профессионального информационного поиска
Приступая к информационному поиску в Интернет, следует всегда помнить несколько основных моментов. Прежде всего, никакие средства навигации - справочники или поисковые машины - не охватывают всего текущего информационного массива Интернет. По некоторым оценкам, даже такие признанные лидеры сетевого поиска как Google, отражают не более трети совокупного содержания Сети. Причина этого - постоянный колоссальный прирост объемов информации в Интернет, который, несмотря на все усилия навигационных служб, содержит огромное число белых пятен. Помимо быстрого роста и изменения местоположения документов, большинство поисковых систем имеют внутренние ограничения на отражение материалов одного сайта и на объем индексируемой части страницы. Программы-роботы зачастую не идут в глубь сервера дальше определенной директории, что также сокращает число отраженных материалов. В тоже время многие крупные сайты имеют собственную систему поиска, которая отражает весь их информационный массив. Выявив такие сервера с помощью справочников, можно провести более детальное их обследование, использовав локальный поисковый механизм. Например, при поиске сведений о конкретном виде креветки, искусственно разводимой человеком, весьма рациональным будет найти и просмотреть сервера, посвященные в целом аквакультуре, отрасли, занимающейся выращиванием морепродуктов в искусственных теплых водоемах, а при выявлении данных о конкретном заболевании - сервера учреждений, ведущих исследования данной области. Таким образом, для достижения наиболее полных результатов следует применять справочники и поисковые системы в сочетании друг с другом. Существует также ряд общих требований к поисковой деятельности, соблюдение которых повышает эффективность и экономит время, затрачиваемое на разыскание данных. 1. Для поиска материалов по крайне узкой специфической тематике стоит начинать с мета-машин, дабы сразу получить представление о том, насколько богато данная проблематика представлена в Интернет. 2. Для получения более полных результатов по сложному запросу (например, там, где есть ограничения не только по содержанию документа, но и по дате обновления или местоположению документов) поиск рекомендуется проводить отдельно в каждой поисковой машине. Поисковые системы имеют сильный разнос в отражении документов и их последовательное использование в значительной степени расширяет охват материала. 3. При разыскании документов об отдельной стране или на конкретном языке следует отдать предпочтение национальным/региональным поисковым средствам. Так, например, при поиске материалов на испанском языке стоит обращаться не к глобальным, а к испанским поисковым системам, например, Trovator (http://www.trovator.com). 4. Формировать запрос надо максимально точно, используя все возможности механизма составления запроса. Затраты времени на детальное составление поискового предписания окупаются при анализе результатов поиска. При точном формировании запроса процент информационного шума будет намного ниже. 5. При составлении запроса на текстовый материал всегда стоит мысленно представить, каким может быть предполагаемое содержание документа. При поиске источников об А.С. Пушкине недостаточно просто ввести его фамилию (список результатов будет изобиловать адресами всевозможных учреждений, расположенных на улицах Пушкина в разных городах). Гораздо больший эффект принесет поиск по фамилии в сочетании с названиями произведений поэта. Для разысканий же полных текстов произведений, наоборот, стоит вводить в поисковую строки из произведения, которые однако не являются расхожими фразами (например, для поиска полного текста поэмы "Евгений Онегин" не стоит использовать "Мой дядя самых честных правил", гораздо лучший результат принесет "Когда на бледном небосклоне звезд исчезает хоровод " или другая характерная, но не столь распространенная точная фраза). При систематическом обращении к поисковым средствам, необходимо постоянно следить за новостями, относящимися к поисковому сервису. В окружающем нас мире вообще, а в цифровом мире тем более, нет ничего вечного. Каждая поисковая система переживает периоды зарождения, расцвета и упадка. Не бойтесь отказаться от использования любимой, но устаревающей поисковой системы и перейти на использование новых поисковых инструментов, обладающих большей эффективностью. Примеры выполнения запросов: Задача: Выявить сайты с пародиями на фильм "Титаник". Запросы такого рода относятся к простейшим и выполняются с помощью справочников. В данном случае следует обратиться к Yahoo!. Внутри справочника нужно выбрать раздел ФИЛЬМЫ (MOVIES) в категории ДОСУГ/РАЗВЛЕЧЕНИЯ (ENTERTAINMENT). В пределах категории, все содержание которой ограничено кинотематикой, можно осуществить непосредственный поиск путем ввода в поисковую строку слова Titanic. При этом в условии поиска не забыть сократить зону поиска - "Just this category" вместо "All Yahoo". В перечне выданных ссылок выбрать Anti-Titanic или Parody. Задача: Выявить материалы по электронной доставке документов, расположенные на серверах в Великобритании. Для разысканий могут быть использованы поисковые машины, способные легко ограничивать поиск рамками отдельной страны, т.е. Google, Fast Search, Alta Vista. Задача: Найти материалы о разведении староанглийской овчарки (бобтейл) на русском языке. Для разыскания может быть использована любая отечественная поисковая система. Правильно составленный запрос имеет вид: в Яндекс [разведение староанглийской овчарки бобтейл]; в Rambler и Апорт [+разведение +староанглийская +овчарка бобтейл]. Задача: Найти репродукции картины Pablo Picasso "La Guernica". Задача может быть решена с помощью любой системы, обладающей специальными функциями поиска изображений: Alta Vista, Google и Fast Search. В поисковую строку в режиме поиска иллюстраций достаточно ввести название картины в виде фразы в кавычках "La Guernica". В ответ система выдает ссылки на искомые документы. Задача: Представить адреса не менее трех аудиофрагментов музыкальной темы из кинофильма "Взвод" ("Platoon"). Запрос относится к наиболее сложным, поскольку первоначальные сведения крайне скудны. В ходе поиска необходимо расширить информационное поле, в частности постараться узнать оригинальное название музыкального произведения и его автора. Для разыскания используется Alta Vista, обладающая специальной функцией поиска аудиофрагментов. Первоначальный запрос состоит из слова Platoon в поисковой строке в режиме поиска Audio. Среди полученных результатов находим те, которые, безусловно, относятся к фильму. В одной из ссылок встречаем название музыкальной темы: "Adagio for strings". Вторично в режиме Audio задаем запрос: [Platoon Adagio for strings]. В перечне уточненных результатов находим автора: Samuel Barber. За счет полученных данных расширяем запрос, который принимает теперь вид: [+Adagio for strings +Barber]. Построенный таким образом поиск приносит в первом десятке несколько ссылок на данное музыкальное произведение на различных сайтах. СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ FineReader (FR) FR предназначена для автоматизации ввода в ПК типографских документов. Работает в среде Windows. Обеспечивает распознавание до 99,6% символов. Время обработке 1-й страницы < 1 мин. Работа в FR выполняется в три этапа: сканирование, распознавание, редактирование. Сканирование выполняется при физически и программно установленном сканере. Для качественности распознавания перед началом работы в диалоговом окне установки сканера (пункт Scаn&Read) задаются необходимые параметры: тип изображения, формат, ориентация, разрешение и яркость. Распознавание, т.е. формирование системой истинного образа документа, включает настройку системы на документ, разбиение документа на блоки и распознавание блоков. Редактирование документа включает корректировку, орфографический контроль и сохранение текста. Проверка орфографии производится с помощью встроенной в FR системы Lingvo Corrector, которая позволяет находить ошибки и неуверенно распознанные слова, корректировать ненужные пробелы и т.п. При некачественности сканируемого документа используется распознавание с обучением. (При этом пользователь, просматривая документ, выделяет плохо различимые символы и объявляет их названия системе, которая использует их при дальнейшей работе. Основы работы в FineReader будут освоены на лабораторных занятиях. АВТОМАТИЗИРОВАННЫЙ ПЕРЕВОД В СИСТЕМЕ Promt Система обеспечивает перевод с множества языков на русский и обратно. Автоматизированный перевод обычно включает этапы: 1. Первоначальный перевод. 2. Повышение качества перевода. 3. Постредактирование. Первоначальный перевод начинается с загрузки исходного текста или его непосредственного набора. Перевод может выполняться по абзацам, по выделенным фрагментам, весь текст и т.д. Повышение качества перевода достигается за счет: - резервирования слов, не требующих перевода (названия, специальные термины, сокращения). Здесь иногда удобно также применять транслитирование слов - запись буквами нужного языка (Иванов - Ivanov); - подключения специализированных словарей по определенной тематике (например, по информатике, химии) и пользовательских словарей, обеспечивающих настройку на конкретный текст; - пополнения словарей. Для качественности перевода его целесообразно выполнить дважды, при этом в первом варианте перевода выясняют: 1. Какие слова не переведены (выделяются другим цветом)? 2. Какие слова и словосочетания переведены неудачно? 3. Какие слова следует оставить без перевода? Такие слова включают в пользовательский словарь, резервируют или исправляют средствами редактора. После этого перевод повторяют. Постредактирование заключается в смысловом редактировании переведенного текста. Здесь используются возможности внутреннего редактора системы с использованием команд пункта Правка. Для облегчения поиска абзацев между переводом и оригиналом существует постоянная связь. Отредактированный текст может быть дополнительно проверен с помощью справочных словарей или систем проверки орфографии. Полученный перевод записывается в файл или распечатывается непосредственно из Promt (можно сохранить и оригинал). Система Promt может взаимодействовать с другими приложениями Windows следующими способами: - переводом текста в буфере обмена; - установлением связи с приложениями; - встраиванием перевода внутрь приложений. Основы работы в Promt будут освоены на лабораторных занятиях.
Дата добавления: 2014-01-03; Просмотров: 1158; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |