Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Индексирование документов в Интернет




В процессе индексирования каждому документу информационного массива ставится в соответствие его поисковый образ. Вектор поискового образа имеет длину, равную размеру словаря системы, который составляют все пригодные для индексирования термины из всех документов.

Локальные ИПС по типу используемого словаря делятся на два класса:

- системы с контролируемым словарем,

- системы со свободным словарем.

Контролируемый словарь предполагает ведение некоторой лексической базы данных, добавление терминов в которую производится администратором системы. Все новые документы могут быть проиндексированы с помощью только тех терминов, которые находятся в словаре.

В свободный словарь термины добавляются автоматически по мере появления новых документов. При этом нужно регулярно проводить актуализацию (обновление) базы данных поисковых образов документов. На момент актуализации словарь фиксируется, и производится полная переиндексация документов. Процедура актуализации обычно занимает достаточно много времени из-за необходимости проиндексировать все документы, и система в момент ее актуализации недоступна. В течение эксплуатации системы (между процедурами обновления поисковых образов документов) база данных поисковых образов и словарь системы не меняются.

Тем самым в локальных ИПС обеспечивается главное условие применения векторной модели информационного массива: фиксированная мощность словаря.

Распределенный динамический информационный массив, которым является Интернет, не позволяет использовать словари фиксированной длины. Контролируемый словарь создать невозможно из-за непрерывного роста числа ресурсов и документов. Постоянно же переиндексировать все документы в сети с учетом вновь появляющихся невозможно из-за их громадного объема.

Чтобы актуализировать базу данных индексированных документов, ИПС Интернета осуществляют непрерывное сканирование сети. При этом из-за появления новых документов размер поискового информационного массива увеличивается, что приводит к увеличению объема словаря.

Для ограничения роста числа терминов в словаре в настоящее время документы индексируются с помощью 20-100 терминов из его содержания, имеющих наибольший вес. Вес индексационного термина обычно вычисляется по формуле. После создания поискового образа документа термины из него добавляются в словарь.

Необходимо отметить, что источником терминов индексирования в большинстве случаев выступает не весь документ, а только отдельные его части: заголовок, гипертекстовые ссылки, подзаголовки, специальные поля. Это является еще одним из способов контроля размера словаря.




Поделиться с друзьями:


Дата добавления: 2014-01-20; Просмотров: 773; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.