КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности результатов поиска
18.03.2013 Любая поисковая система индексирует всю информацию. Какие факторы влияют на качество найденной информации: 1. Язык запроса. Чем четче сформулирован вопрос, тем более точный ответ получается. Близость – какой документ ближе подходит к словам, находящимся в вопросе. Каталоги в интернете. (Один из источников мета-информации) Более точными характеристиками поиска являются семантические (смысловые) показатели. Они опираются на соответствия найденных документов. Релевантность – объективно существующее смысловое соответствие. Объективность оценок релевантности формируется за счет экспертных оценок – оценки людей, которые работают в этой области и обладают авторитетом. Семантическими показателями являются: 1. Полнота выдачи (потеря информации) 2. Точность выдачи (информационный шум) а- множество релевантных и выданных системой документов б- множество нерелевантных, но выданных в- множество релевантных, но не выданных Полнота (Пв) = Точность (Тв) = (а/а+б) * 100% Потеря информации (Пи) = (в/а+в)* 100% Информационный шум (Иш) = (б/а+б)*100% Прагматические показатели оценки документальных ИР (эти показатели опредеяют пользователи информационной системы). Пертинентность – это субъективно-оцениваемая соответствие содержания документов или текстов к информационным запросам пользователя. Эти оценки отличаются от оценок объективной релевантности (запросы индивида отличаются) В последние годы наметилась тенденция перехода к текстовой информации, документации и профессиональных БД. В начале процесса перевода БД в электронный вид доля текстовой информации была менее 50%, на рубеже 20 века – более 80%. В профессиональных БД документальный поиск приобретает первостепенное значение. В средствах поиска в интернете в целом не используются ИПЯ. Полнота поиска в интернете ниже, чем в специальных документальных поисковых системах, в которых информационные документы и запросы пишутся на специальных языках. Первичную обработку данных из интернета ведут специальные агентства (агентства-генераторы), они поддерживают БД в актуальном состоянии (обновляют с известной частотой). Показатели полноты и точности существенно выше в профессиональных БД, чем в интернете. Факторы, влияющие на оценку достоверности: · Человек, который производит оценку (знания и опыт) · Ряд агентств работают более 100-150 лет. Они не являются первоисточниками, но вся информация проверена. · Динамизм, ряд сведений, данных. Ряд зависит от времени, ряд – не зависит. Если система не учитывает этих факторов, то эффективность системы – низкая. Искажения информации могут быть: · Случайные · Систематические · Преднамеренные (дезинформация) Сводные рекомендации по проверки достоверности источника: 1. Выявить к каким источникам относится информация – первичные источники или вторичные 2. Определить надежность источника информации 3. Выявить логические несоответствия в логической составляющей 4. Необходимо изучить содержание (контекст), где содержатся те или иные сведения 5. Необходимо как можно раньше выявить (выделить) информацию, основанную на психологии: обман, манипуляция, предрассудки Желательно получать информацию от независимых источников. Выводы: Берется как объективный факт, факт рассеивание информации по любому вопросу. Естественным вопросом возникает вопрос полноты информации. Добиться полного охвата с помощью ИР невозможно. Необходимость работы с мета-информации (информация об источников информации). Наиболее актуальным в настоящее время является поиск по документальным БД и поиск происходит лавинообразно. В известных БД более миллиарда документов хранится. А информация в интернете – разрознена. Деловые ресурсы по областям деятельности более эффективными, являются более лучшим источником информации, но доступ к ним затруднен. Любой доступ к ИР и поиск в них определяется мета-информацией. Понятие socket – понятие сетевых технологии, которое лежит в основе связи компьютеров между собой.
Дата добавления: 2015-05-10; Просмотров: 4530; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |