Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Сбор и регистрация информационных ресурсов




Эти функции обеспечивают «фотографирование» предметной области, формирова­ние и поддержку на этой основе модели предметной области экстенси­онального уровня.

Для выполнения этих функций проводятся работы как вне програм­мно-аппаратного комплекса системы, так и непосредственно в его среде. Способы реализации указанных функций зависят от характера используе­мых источников информации, в качестве которых могут служить: сущности и процессы в предметной области системы, различного рода автоматизиро­ванные технические системы, другие информационные системы, всевозмож­ные данные на бумажных или электронных носителях и т. п.

Функции сбора и регистрации информационных ресурсов могут сов­мещаться во времени или выполняться последовательно. Возможны раз­личные варианты их осуществления, например:

- путем измерений (наблюдений) фактов в реальном мире и ввода дан­ных в систему вручную с помощью клавиатуры и/или каких-либо ма­нипуляторов;

- полуавтоматически путем ввода в компьютер с некоторых носи­телей и в случае необходимости их оцифровки (например, при ис­пользовании текстов на бумажных носителях или аналоговых ау­диозаписей);

- автоматически с помощью различного рода датчиков или обмена данными с другими автоматизированными системами.

С этими функциями механизмов информационных систем и их персо­нала связана необходимость решения ряда сопутствующих задач, таких как очистка, верификация, сжатие данных, конвертирование их из одно­го формата в другой и т. д.

Очистка данных — необходимая стадия предварительной обработки данных и подготовки их к загрузке в систему, особенно в случаях, когда используется несколько источников данных. Обычно она включает про­цедуры фильтрации данных, верификации, обеспечения логической це­лостности, устранения несогласованности, избыточности и различных ошибок, восполнения пропусков, а также другие процедуры, направ­ленные на улучшение качества данных. Задачи перечисленных проце­дур в некоторой мере пересекаются.

В результате фильтрации производится отбор нужных данных из множества имеющихся в распоряжении.

Верификация данных обеспе­чивает достоверность и логическую целостность данных. Проверка до­стоверности данных — это содержательная процедура, которая поз­воляет установить, адекватно ли характеризуют состояние предметной области собранные для ввода в информационную систему информаци­онные ресурсы. Эта процедура, к сожалению, не может быть в полной мере формализована. Поэтому она в значительной мере возлагается на системный персонал и привлекаемых к этой работе экспертов. В систе­мах баз данных за достоверность данных ответственен администратор данных. Проверка логической целостности данных может осущест­вляться на стадии предварительной их обработки, а также непосредс­твенно при вводе в систему. Для этих целей в системах баз данных могут, в частности, использоваться механизмы СУБД, специально предназна­ченные для проверки ограничений целостности, которые были объявле­ны в схеме базы данных. Такая проверка осуществляется при обновлении состояния базы данных. Проверку целостности XML-документов может выполнять Web-браузер при условии, если для этого документа задано описание типа документов (DTD). Выбор конкретных ме­тодов обеспечения верификации данных зависит от характера их источ­ников, качества данных, видов ограничений целостности и т. п.

В некоторых информационных системах информационные ресурсы хранятся в сжатом виде. Сжатие данных осуществляется с целью ми­нимизации ресурсов памяти, необходимых для их хранения, а также для снижения затрат на передачу данных по коммуникационным каналам. Та­кой подход часто используется в различных репозиториях информацион­ных ресурсов с файловой организацией среды хранения. Механизмы сре­ды хранения данных некоторых СУБД включают встроенные средства, обеспечивающие сжатие отдельных значений данных, кортежей, доме­нов значений атрибутов и т. д., сжатие индексных файлов, резервных ко­пий базы данных. Для рационального использования ресурсов памяти в некоторых классах систем, например в системах управления докумен­тами, документы подразделяются на активные и архивные. Хранение ар­хивных документов осуществляется в сжатых форматах.

Конвертирование данных при вводе в систему используется для преобразования данных из одного формата в другой, допускающий автоматизированный импорт их в информационную систему. Конвертирова­ние данных часто необходимо в случаях, когда источником данных явля­ется некоторая другая система.

Хранение информационных ресурсов

Эта функция информацион­ных систем связана с необходимостью управления двумя видами ресур­сов — ресурсами хранимых данных и ресурсами памяти. Требования к этим функциям различаются в разных классах информационных сис­тем. Рассмотрим, каким же образом организованы хранение информа­ционных ресурсов и доступ к ним в наиболее распространенных классах информационных систем.

В системах текстового поиска каждый документ хранится обычно в от­дельном файле. Доступ к документам осуществляется с помощью струк­тур данных, называемых индексами. Индексы в системах текстового по­иска позволяют определять адрес размещения нужного файла по, так называемым, индексирующим свойствам хранящегося в нем докумен­та — по значениям каких-либо атрибутов, ассоциированных с докумен­том, по содержащимся в нем словам или словосочетаниям и т. п. При этом единицей доступа является полный документ. Управление памятью осуществляется в таких системах средствами компонента операционной системы компьютера, называемого файловой системой или системой управления файлами. Индексы документов в системах текстового по­иска организуются в виде так называемых инвертированных списков. Для каждого значения индексирующего свойства документов в таких индек­сах поддерживаются адреса или идентификаторы файлов, их содержащих.

Файловая организация хранения информационных ресурсов исполь­зуется также в действующей версии Web, основанной на технологиях HTML. Здесь каждая HTML-страница представлена в общем случае в виде совокупности файлов. Главный из них — это основной структу­рообразующий файл данной страницы. Он имеет формат HTML. Кро­ме того, в отдельных файлах представлены встроенные изображения и другие компоненты страницы, на которые имеются ссылки в ее глав­ном файле. Доступ к страницам Web осуществляется непосредственно по их уникальным «адресам» в Web, называемым URL (Universal Resource Locator), либо с использованием навигации по гиперссылкам. Еди­ницей доступа здесь является полная страница Web, хотя при навигации очередная гиперссылка может указывать только на фрагмент страницы. Функции управления ресурсами памяти, служащими для хранения ре­сурсов Web, возлагаются на операционные системы тех компьютеров сети, которые содержат используемые страницы.

Нужно заметить, что в связи с интенсивным ростом объемов инфор­мационных ресурсов Web навигационный доступ к требуемым ресур­сам стал неэффективным. Пользователям Web обычно известно лишь ограниченное количество URL интересующих их страниц Web. Поэто­му он в сравнительно небольшом числе случаев может воспользоваться прямым доступом к информационным ресурсам Web.

Вот почему стали создаваться приложения Web, называемые поиско­выми машинами. Поисковая машина с некоторой периодичностью про­сматривает страницы закрепленной за ней группы Web-сайтов и строит либо актуализирует полнотекстовые индексы для этих страниц. На этой основе осуществляется обработка пользовательских запросов так, как это делается в системах текстового поиска.

Более тонкую организацию имеют механизмы управления хранением данных и пространством памяти в информационных системах, основан­ных на технологиях баз данных. Причины заключаются в том, что в сис­темах баз данных используются более сложные структуры данных, тре­буется значительно более мелкая гранулярность доступа к ресурсам, более динамичный характер имеют хранимые данные.

Управление хранимыми данными в системах баз данных включает поддержку структуры хранимых данных, их размещение в пространстве памяти, поддержку физической целостности и обеспечение эффективно­го доступа к ним. Чаще всего используются прямой и последовательный доступ к единицам информационных ресурсов в каком-либо определен­ном порядке.

Прямой доступ осуществляется по известным значениям некоторых свойств (ключей) единиц информационных ресурсов. Для этой цели ис­пользуются вспомогательные хранимые структуры данных, обеспечива­ющие отображение ключей в адреса размещения соответствующих еди­ниц информационных ресурсов, например строк таблиц в реляционных базах данных.

Чаще всего в качестве таких вспомогательных структур используются эффективно организованные индексы и хеш-таблицы.

Индексные структуры, организованные в виде деревьев специаль­ных видов, обеспечивают быстрый поиск с помощью навигации в этих деревьях по коротким цепочкам указателей и, возможно, ограниченного перебора. Существует большое многообразие способов построения ин­дексов.

Хеш-таблицы, в отличие от индексов, обеспечивают определение ад­реса размещения искомой (или размещаемой) единицы информацион­ных ресурсов не путем навигации в индексной структуре, а с помощью вычисления некоторой функции отображения ключа в адрес. Значе­ния этой функции представляют собой случайные числа, равномерно распределенные в заданном интервале, которые используются как номера участков во внешней памяти или строк таблицы хеширования, содержащих соответствующие единицы информационных ресурсов или их адреса.

Индексные структуры поддерживают доступ к хранимым единицам ин­формационных ресурсов в порядке соответствующих им ключей. Про­стая техника хеширования таких возможностей не предоставляет. Для этих целей применяют усовершенствованные методы хеширования.

Последовательный доступ к хранимым единицам информационных ре­сурсов осуществляется в порядке их физического размещения либо по зна­чениям некоторых содержащихся в них или ассоциированных с ними иден­тификаторов (ключей). В последнем случае для поддержки необходимой упорядоченности обычно используют индексы по заданным ключам.

Нужно заметить, что в унаследованных СУБД, основанных на гра­фовых моделях данных, использовался также и навигационный доступ к хранимым данным.

Управление ресурсами памяти в СУБД включает такие опера­ции, как учет свободного пространства памяти, выделение пространс­тва для размещения новых вводимых в систему информационных ресур­сов, так называемая сборка мусора — возвращение освободившегося пространства памяти в пул свободного пространства для повторного его использования. Нужно назвать здесь также операцию реорганизации среды хранения базы данных. В результате выполнения этой операции изменяется размещение хранимых данных в пространстве памяти систе­мы таким образом, чтобы стало возможным более эффективное исполь­зование ресурсов свободной памяти, а также чтобы сократить время до­ступа к часто используемым хранимым данным и т. п.

Важно заметить, что способы размещения информационных ресурсов в пространстве памяти системы и способы доступа к ним тесно связаны.

Среда хранения в системах баз данных также базируется на файловой организации. Однако над файловой системой надстраиваются механиз­мы, обеспечивающие более тонкие методы управления данными в тер­минах элементов содержания файлов. Единицей доступа здесь является, как уже отмечалось, не файл или порция файла, предусмотренная в фай­ловой системе, а порции информационных ресурсов с гораздо более мел­кой гранулярностью.




Поделиться с друзьями:


Дата добавления: 2014-01-13; Просмотров: 1758; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.015 сек.