Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности результатов поиска




18.03.2013

Любая поисковая система индексирует всю информацию.

Какие факторы влияют на качество найденной информации:

1. Язык запроса. Чем четче сформулирован вопрос, тем более точный ответ получается. Близость – какой документ ближе подходит к словам, находящимся в вопросе.

Каталоги в интернете. (Один из источников мета-информации)
Они строятся как тематические рублики, по которым разносятся существующие узлы (сайты). Эти каталоги формируются человеком. При этом пользуются естественной логико-тематической структурой. Рублики включаются в каталоги по сведеньям, которые отражают ту или иную сферу деятельности. Каталоги содержат тысячи рублик, сформированные людьми, а индексные БД содержат ссылки на миллионы страниц (более эффективно при точно-сформулированном запросе). Технология работы с каталогам – переход от меню верхнего уровня на меню нижнего уровня. Каталоги эффективны при ответе на достаточно точно сформулированный вопрос. Если каталог предметный, то возможно использование «ключевых слов».

Более точными характеристиками поиска являются семантические (смысловые) показатели. Они опираются на соответствия найденных документов.

Релевантность – объективно существующее смысловое соответствие. Объективность оценок релевантности формируется за счет экспертных оценок – оценки людей, которые работают в этой области и обладают авторитетом.

Семантическими показателями являются:

1. Полнота выдачи (потеря информации)

2. Точность выдачи (информационный шум)

а- множество релевантных и выданных системой документов

б- множество нерелевантных, но выданных

в- множество релевантных, но не выданных

Полнота (Пв) =

Точность (Тв) = (а/а+б) * 100%

Потеря информации (Пи) = (в/а+в)* 100%

Информационный шум (Иш) = (б/а+б)*100%

Прагматические показатели оценки документальных ИР (эти показатели опредеяют пользователи информационной системы). Пертинентность – это субъективно-оцениваемая соответствие содержания документов или текстов к информационным запросам пользователя. Эти оценки отличаются от оценок объективной релевантности (запросы индивида отличаются)

В последние годы наметилась тенденция перехода к текстовой информации, документации и профессиональных БД. В начале процесса перевода БД в электронный вид доля текстовой информации была менее 50%, на рубеже 20 века – более 80%. В профессиональных БД документальный поиск приобретает первостепенное значение.

В средствах поиска в интернете в целом не используются ИПЯ. Полнота поиска в интернете ниже, чем в специальных документальных поисковых системах, в которых информационные документы и запросы пишутся на специальных языках.

Первичную обработку данных из интернета ведут специальные агентства (агентства-генераторы), они поддерживают БД в актуальном состоянии (обновляют с известной частотой). Показатели полноты и точности существенно выше в профессиональных БД, чем в интернете.

Факторы, влияющие на оценку достоверности:

· Человек, который производит оценку (знания и опыт)

· Ряд агентств работают более 100-150 лет. Они не являются первоисточниками, но вся информация проверена.

· Динамизм, ряд сведений, данных. Ряд зависит от времени, ряд – не зависит.

Если система не учитывает этих факторов, то эффективность системы – низкая.

Искажения информации могут быть:

· Случайные

· Систематические

· Преднамеренные (дезинформация)

Сводные рекомендации по проверки достоверности источника:

1. Выявить к каким источникам относится информация – первичные источники или вторичные

2. Определить надежность источника информации

3. Выявить логические несоответствия в логической составляющей

4. Необходимо изучить содержание (контекст), где содержатся те или иные сведения

5. Необходимо как можно раньше выявить (выделить) информацию, основанную на психологии: обман, манипуляция, предрассудки

Желательно получать информацию от независимых источников.

Выводы:

Берется как объективный факт, факт рассеивание информации по любому вопросу.

Естественным вопросом возникает вопрос полноты информации.

Добиться полного охвата с помощью ИР невозможно.

Необходимость работы с мета-информации (информация об источников информации).

Наиболее актуальным в настоящее время является поиск по документальным БД и поиск происходит лавинообразно. В известных БД более миллиарда документов хранится. А информация в интернете – разрознена.

Деловые ресурсы по областям деятельности более эффективными, являются более лучшим источником информации, но доступ к ним затруднен.

Любой доступ к ИР и поиск в них определяется мета-информацией.

Понятие socket – понятие сетевых технологии, которое лежит в основе связи компьютеров между собой.

 




Поделиться с друзьями:


Дата добавления: 2015-05-10; Просмотров: 4530; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.198 сек.