Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Оценка векторной модели




В лингвистическом тексте.

Фонема

Звук

Сравним термины

Мера близости.

Оценка значимости термина в документе и запросе.

Векторная модель ИП

Оценка булевской модели

Принцип хранения данных

Работа с логическими операторами (And, Or, (And)Not)

Булевская модель ИП

Модели ИП

Формат запросов

Формат представления данных в ПС

Базовые установки ПС

В закрытой коллекции (свои особенности)

Поиск

Пополнение баз ПС

Вопросы к индексу

Инвертированный файл индекса

Предварительная обработка запроса

преобразование языковых выражений:

[что такое Х?]=[Х – это…]

[как купить Y?]=[купить Y]=[магазин + Y] и т.д.

в индексе поисковой системы значатся слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось:

подберезовик: 1®3®7®10®15

подосиновик: 2®3®51115®23

опенок: 10®15®27114

Сколько единиц должен содержать индекс?

Какова вероятность отсутствия нужных ссылок в индексе?

Как должен изменяться индекс в соответствии с изменением источников информации?

Прямая индексация: разработчик сайта сам посылает информацию в ПС.

Программы-роботы, которые находят ссылки на новые страницы; запускаются разработчиками ПС (основной способ).

в «открытом пространстве» Интернета

Принцип человеко-машинного взаимодействия. Возможное участие экспертов в индексировании:

деньги Û качество

Оценка релевантности документов (степени близости запроса и документа)

Булевская (булевая, boolean model, двоичная модель): опирается на операции пересечения, объединения и вычитания множеств.

Векторная: документы и запросы рассматриваются как векторы в пространстве слов, а релевантность как расстояние между ними.

Толстой And Достоевский [++]

Толстой Or Достоевский [+/+]

Толстой Not Достоевский [+/–]

Простота и удобство для тех, кто умеет пользоваться логическими операторами, но…

излишняя строгость, отсутствие механизмов оценки релевантности слова для документа (и, соответственно, запроса), требование вроде простых, но все же специальных знаний.

Вес термина: отношение между частотой в тексте и частотой в коллекции (TF/DF)

насколько часто встречается в документе?

Частота термина (term frequency, TF) – частота употреблений слова в документе.

насколько часто встречается в коллекции?

Частота (слова) в документах (document frequency, DF) – число документов в коллекции, содержащих данное слово.

Чем чаще термин встречается в коллекции, тем он менее интересен!

Какой более значим для автоматической оценки содержания текста и определения его тематики?

Оценивается важность термина (есть механизм ранжирования), но…




Поделиться с друзьями:


Дата добавления: 2015-07-02; Просмотров: 389; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.