КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Организация баз данных ГИС 1 страница
СИСТЕМА УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ
Важная составная часть ГИС — БД, в которых содержится тематическая информация. В связи со стремительно уменьшающейся стоимостью запоминающих устройств хранение информации в ЭВМ стоит дешевле, чем на бумажных носителях. Впервые понятие «база данных» появилось в начале 60-х годов. До этого времени данные представлялись в виде простых последовательных файлов на магнитной ленте и зависели от программ обработки. Если менялись организация данных или тип запоминающего устройства, программисту приходилось заново переписывать программу, существовали многочисленные версии одного и того же файла. Это приводило к очень высокой степени дублирования данных, их избыточности. В базах данных совокупность взаимосвязанных хранящихся вместе данных организована так, что их использование оптимально для одного или нескольких приложений; данные независимы от программ, использующих эти данные; для добавления новых или модификации существующих данных, а также для поиска данных в БД применяют общий управляемый способ. Данные структурируются таким образом, чтобы была обеспечена возможность дальнейшего наращивания приложений. Основная идея организации структуры базы данных заключается в том, чтобы максимально нормализовать их, т. е. разбить на смысловые и функциональные группы. При организации базы данных различают: · тип данных [картографические и атрибутивные (описательные)]; · структуру данных (топология и слои); · модель данных (иерархические, сетевые, реляционные, гибридные); · форму предоставления пространственных данных (векторную, растровую, трехмерную) (рис. 3.1). Существует два главных типа данных в ГИС: картографические и атрибутивные (описательные) (рис. 3.2). Картографические данные — это картографическая информация, хранящаяся в цифровой форме. Данные формируются по географическим объектам, описываемым на карте. Большую часть этих объектов можно классифицировать на точки, линии и полигоны. Точка представляет собой объект, для которого требуется только географическое местоположение (например, широта/долгота). Примером характеристик точек могут служить места расположения колодцев, реперов и т. д. Линия состоит из серии связанных друг с другом точек и имеет только длину. Примером характеристики линейного объекта могут служить дорога, просека, трубопровод и т. д. Полигон — это площадь, ограниченная замкнутой линией. Полигон расположен на плоскости и имеет два размера: длину и ширину. В качестве образца характеристики полигона можно привести участки с определенным типом почвы, здания, озера, леса, неиспользуемые земельные участки и т. д.
К данным, используемым в ГИС, относится описательная информация, которая хранится в базе данных об объектах (точка, линия, полигон), расположенных на карте. Описательную информацию называют атрибутом. Атрибуты для описания сельскохозяйственного угодья, например, можно представить в следующем виде:
Формально все объекты представляют с помощью их описания набором характеристик, а их хранение — в соответствующих графических и параметрических базах данных. Выделяют три группы признаков (характеристик) описания объектов: идентификационные, классификационные, выходные. Идентификационные характеристики служат для однозначного определения месторасположения объекта на карте и его опознания. К ним относятся название географического объекта, координаты, род объекта и т. д. Классификационные характеристики служат для количественного и качественного описания объекта, и используют их для получения справок об объектах. Они являются основой для получения производных характеристик путем математической обработки (качественный и количественный анализ, моделирование и т. д.). Выходные характеристики содержат информацию об источниках и датах получения соответствующих данных по каждой из характеристик для любого объекта. Назначением данной группы признаков является обеспечение возможности определения достоверности поступающей информации. Одна из основных идей, воплощенная в традиционных ГИС, — это сохранение связи между пространственными и атрибутивными данными при раздельном их хранении и частично при раздельной обработке. При выполнении пространственных запросов атрибутика помогает более точно идентифицировать объект. Предпочтение в ГИС отдают двум формам запроса к атрибутике: языку запросов SQL (Structured Query Language) и шаблону. Совпадающие с этими запросами записи выделяются: QBE (Query By Example). Можно организовывать выбор объектов на карте посредством запросов к атрибутивной таблице, так как выделение графических объектов связано с выделением их атрибутивных записей (рис. 3.3). Идентификаторы предназначены для осуществления связи картографических и атрибутивных данных, так как в большинстве ГИС эти характеристики объектов обрабатываются раздельно. Пользователь может указать на объект, например курсором, и система определит его идентификатор, по которому найдет относящиеся к объекту одну или несколько баз данных и, наоборот, по информации в базе определит графический объект. Как отмечалось, пространственные данные в современных ГИС представлены в двух основных формах: векторной и растровой. Векторная модель данных основывается на представлении карты в виде точек, линий и плоских замкнутых фигур. Растровая модель данных основывается на представлении карты с помощью регулярной сетки одинаковых по форме и площади элементов. Векторные модели используют в ГИС для предоставления информации, которую в дальнейшем нужно обрабатывать (обновлять, корректировать, удалять). Растровые модели используют в качестве подложки для дальнейшей векторизации картографического изображения. Растровая модель дает информацию о том, что расположено в той или иной точке территории, а векторная модель — о том, где расположен тот или иной объект. Растровые модели — это самые простые из всех имеющихся, в которых данные о районе можно представить как набор отдельных картографических слоев, т. е. как набор данных, характеризующих один показатель для каждой позиции в пределах ограниченного географического ареала. В одном слое каждая пространственная позиция характеризуется лишь одним элементом информации, при наличии нескольких элементов требуется создать несколько слоев. Типичные растровые базы данных содержат до 100 слоев (матрица, сетка, растр, массив), обычно имеющих сотни тысяч ячеек. Характерные показатели слоя — его разрешение, ориентация и зона (зоны). Под разрешением понимают (обычно прямоугольный) линейный размер наименьшего участка географического пространства, для которого имеются данные. Ориентация — это угол между направлением на север и положением колонок растра. Зона картографического слоя включает соседствующие друг с другом ячейки, имеющие одинаковое значение. Это могут быть: участки землевладения; административно-территориальные единицы (регионы, муниципальные образования); озера или острова; ареалы типов почв или растительности и т. д.
Основные характеристики зоны — ее значение и положение. Значение — это элемент информации, хранящийся в данном слое для соответствующей ячейки (или элемента растра). Положение обычно задается упорядоченной парой координат (номер строки и номер столбца), которые однозначно определяют положение каждого элемента географического пространства в растре (ячейка, элемент растра, ячейка сети). Векторная модель ГИС базируется на векторах (в отличие от занимающих все пространство растровых структур). Основной элемент этих ГИС — точка, а объекты создаются путем соединения точек прямыми линиями. В некоторых системах точки можно соединять, используя дуги окружностей. Ареалы (полигоны) задаются наборами линий. Векторные данные исторически используются в большинстве систем ГИС и CAD для предоставления информации, которая имеет объектную природу и нуждается в анализе путем манипулирования. Объекты хранятся в виде точек и линий, связанных геометрически и математически. Эти связи означают, что информация может толковаться как серия индивидуальных точек, на основе которой также можно образовывать новые сложные структуры данных. Наличие атрибутов позволяет интерпретировать информацию, например, формировать базы данных по типу почв, характеристикам гидрологической сети или жилых строений. Такая информация обычно хранится в сопутствующих базах данных. Крупные векторные базы данных преобладают в транспортных, коммунальных, маркетинговых приложениях ГИС. В ГИС, применяемых в системе управления земельными ресурсами, используются как растровые, так и векторные модели. Создание базы векторных данных включает следующие этапы: ввод пространственных данных путем сканирования линий с последующей векторизацией или непосредственно из других цифровых источников; ввод данных об атрибутах; увязка пространственных и атрибутных данных. Аналитические функции векторной ГИС выше аналогичных функций растровой ГИС по следующим причинам: больше операций производится с объектами; размеры, например площадь, вычисляются по координатам объектов, а не путем подсчета ячеек; вычисление площади по полигонам дает большую точность, чем подсчет элементов растра; вычисление периметра более точно, чем подсчет границ элементов растра на ребре зоны. При этом скорости проведения операций векторной и растровой ГИС также разнятся. Например, наложение слоев, нахождение буферных зон производятся медленнее в векторной ГИС, а нахождение маршрута по сети дорог — быстрее. Важнейшей современной тенденцией являются соединение растровых и векторных систем, показ векторных данных, наложенных на растровую основу. При этом источником растровых данных может быть файл ГИС (например, изображение, полученное с помощью дистанционных методов, или файл сканирования плоского изображения). С помощью векторных и растровых ГИС можно сформировать зоны: охранную вокруг озер и водотоков, шумового загрязнения вдоль дорог, транспортной напряженности, загрязнения подземных вод вокруг свалки отходов и пр. Анализируют растровые и векторные ГИС по следующим показателям: точность координат, скорость аналитической обработки, потребности в массовой памяти. Точность растра не позволяет отобразить объекты, размеры которых меньше 5 м, например пожарные краны, объекты ливневой канализации, опоры ЛЭП. Кроме того, такая точность не отвечает потребностям лиц, имеющих дело с различными устройствами. С другой стороны, точность в 5 м позволяет избежать сколько-нибудь значительной потери информации о большинстве природных объектов. Определение расположения координат в растровых форматах затруднено, а точность связки составляет 1/2 ширины и высоты ячейки. Точность вектора может кодироваться с любой степенью точности и ограничивается возможностями метода внутреннего представления координат. Обычно для представления используют 8 или 16 десятичных знаков (одинарная или двойная точность). Точность вектора соответствует группам данных, полученных: точной съемкой (координатная геометрия); с карт небольших участков, составленных по топографическим координатам. Для немногих природных объектов характерны четкие границы, которые можно представить в виде линий, определенных математически. Почвы, типы растительности, склоны, местообитания диких животных — все эти объекты не имеют четких границ. В растровых форматах возможна быстрая обработка данных для решения таких аналитических задач, как наложение, определение соседства, логические запросы; определение относительного положения в различных слоях не требует никаких вычислений. Условия хранения данных разнятся при растровой и векторной системах. Простейший метод хранения растровых данных — применение одной позиции (т. е. Один-два байта памяти) для каждой ячейки. Это неэффективный метод, хотя его и применяют в некоторых системах. В таких системах существуют строгие ограничения числа рабочих строк и столбцов. Кроме того, необходимы различные методы сжатия файлов, наиболее распространенный из которых — групповое кодирование. Степень сжатия зависит от пространственной изменчивости данных. При обработке очень сложных данных групповое кодирование дает отрицательный результат. Упаковка и распаковка данных дают лишь небольшое преимущество по сравнению с их по-ячейным хранением. Хранение векторных данных имеет следующие особенности: для хранения простых полигонов требуются очень малые объемы памяти; необходимые объемы памяти зависят от сложности объектов, а также от точности координат (одинарная или двойная); объемы памяти зависят также и от того, какие взаимосвязи объектов хранятся в базе данных. В некоторых системах хранят лишь малое число взаимосвязей, при этом требуется небольшой объем памяти, а другие взаимосвязи при необходимости рассчитывают. Другие системы имеют более совершенные модели базы данных, хранят большое число взаимосвязей, требуют для этого больших объемов памяти. В целом векторные системы используют меньший объем массовой памяти по сравнению с растровыми системами, разрешение которых сопоставимо с векторными. В векторных форматах обычно хранятся данные координатной геометрии (топографические записи) и данные об административно-правовых границах. Если свойства объекта описаны в растровом формате, то достаточно сложно создать целостный объект из отдельных ячеек, например, соединить ячейки, расположенные вдоль дороги. В растровых форматах используются ячейки одинакового размера, поэтому растр организует географическое пространство в заданной последовательности, обеспечивает последовательное достижение реальной. Точечный объект должен занимать целую ячейку, это создает ряд трудностей при установлении их местонахождения. В векторной форме можно организовать пространство в любой последовательности, что обеспечивает произвольный доступ к данным. С помощью сочетания растра и вектора, позволяющего объединить лучшие характеристики обоих подходов, можно хранить данные в векторной форме, а обрабатывать в растровой. Для этого необходим эффективный алгоритм перевода из растрового форма-га в векторный и наоборот. Это позволяет сэкономить компьютерное время и объем массовой памяти. Можно также использовать системы, в которых растровый и векторный анализ могут осуществляться параллельно, например при установке растровой и векторной систем в одном персональном компьютере с использованием функций преобразования в одной или в обеих системах. Также этот способ возможен при наложении векторной карты участков с различным типом использования земель на аэроснимок для более точного дешифрирования. Затем этот снимок может быть использован для корректировки векторной карты ареалов растительности. Существует два типа структуры данных: топология и слои. Топологию применяют для выделения пространственной связи между объектами. Топология обеспечивает связь между точками, линиями и полигонами и обычно не изменяется оператором. Слои же применяют для того, чтобы структурировать данные. Топологическая информация описывает, как объекты расположены друг относительно друга в пространстве, и обычно оператор ее не изменяет. В ГИС требуется точно определить топологию, для того чтобы выполнять пространственный анализ. Топология включает в себя информацию, какие условные знаки соответствуют определенным объектам, как точки соединены друг с другом и какие точки и линии образуют полигоны. Топологическая информация позволяет пользователю ГИС извлекать информацию, например, о том, какое перекрытие имеют определенные полигоны, находится ли линия внутри полигона, и определять, насколько близко один объект расположен к другому. Манипуляция и анализ данных, выполняемые нетопологическими ГИС-системами (например, CAD-системами), ограниченны. Большинство ГИС позволяют разделять информацию на карте в логические категории, называемые картографическими слоями. Слои обычно содержат информацию только об одном типе объектов, подобно типу почвы участков, или о небольшой группе связанных объектов, например коммунальные транспортные магистрали (телефонные, электрические и газовые линии) (рис. 3.4).
Данные разделяют на слои карты так, чтобы ими можно было манипулировать и анализировать в пространстве либо по отдельности, либо совместно с другими слоями. Для получения более значимых аналитических результатов слои в ГИС должны быть связаны друг с другом через общую систему координат базы данных. Базы данных делят на иерархические, сетевые и реляционные. Иерархические базы данных устанавливают строгую подчиненность между записями и состоят из упорядоченного набора деревьев (из упорядоченного набора нескольких экземпляров одного типа дерева). Тип дерева состоит из одного «корневого» типа записи и упорядоченного набора из нуля или более типов поддеревьев (каждое из которых является некоторым типом дерева). Тип дерева в целом представляет собой иерархически организованный набор типов записи (рис. 3.5). Здесь Квартал является предком для Земельного участка, а Земельный участок — потомком для Квартала. Земельный участок является предком для Части участка, а часть участка — потомком для Земельного участка. Между типами записи поддерживаются связи. Автоматически поддерживается целостность ссылок между предками и потомками. Типичный представитель иерархических систем — Information Management System (IMS) фирмы IBM. Первая версия появилась в 1968 г. До сих пор поддерживается много баз данных в этой системе, что создает существенные проблемы с переходом как на новую технологию БД, так и на новую технику. Сетевые базы данных используют в том случае, если структура данных сложнее, чем обычная иерархия, т. е. простота структуры иерархической базы данных становится ее недостатком. Организация сетевых и иерархических баз данных должна быть жесткая. Наборы отношений и структуру записей необходимо задавать заранее. Типичный представитель сетевых систем — Integrated Database Management System (IDMS) компании Cullinet Software, Inc., предназначенная для использования на машинах основного класса фирмы IBM под управлением большинства операционных систем. Архитектура системы основана на предложениях Data Base Task Group (DBTG) Комитета по языкам программирования Conference on Data Systems Languages (CODASYL). Сетевой подход к организации данных является расширением иерархического. В иерархических структурах запись-потомок должна иметь в точности одного предка; в сетевой структуре данных потомок может иметь любое число предков. Сетевая БД состоит из набора записей и набора связей между этими записями. Тип связи определяется для двух типов записи: предка и потомка (рис. 3.6).
Изменение структуры базы данных предполагает перестройку всей базы данных, а для получения ответа на запрос необходимо иметь специальную программу поиска данных. Поэтому реализация пользовательских запросов занимает много времени. Недостатки иерархической и сетевой моделей привели к появлению реляционной базы данных. Реляционная модель была попыткой упростить структуру БД. В ней все данные представлены в виде простых таблиц, разбитых на строки и столбцы.
В реляционной базе данных информация организована в виде таблиц, разделенных на строки и столбцы, на пересечении которых содержатся значения данных. У каждой таблицы имеется уникальное имя, описывающее ее содержимое. Структура таблицы показана на рисунке 3.7. Каждая горизонтальная строка этой таблицы представляет отдельный физический объект — один административный район. Она же представлена на карте отдельным графическим объектом. Все строки таблицы представляют все районы одной области. Все данные, содержащиеся в конкретной строке таблицы, относятся к району, который описывается этой строкой. Все значения, содержащиеся в одном и том же столбце, являются данными одного типа. Например, в столбце «Районный центр» содержатся только слова, в столбце «Площадь» содержатся десятичные числа, а в столбце «ID» — целые числа, представляющие коды объектов, установленные пользователем. Связь между таблицами осуществляется по полям. Каждая таблица имеет собственный, заранее определенный набор поименованных столбцов (полей). Поля таблицы обычно соответствуют атрибутам объектов, которые необходимо хранить в базе. Количество строк (записей) в таблице не ограничено, и каждая запись несет информацию о каком-либо объекте. Понятие «тип данных» в реляционной модели данных полностью адекватно понятию «тип данных» в языках программирования. Обычно в современных реляционных БД допускается хранение символьных, числовых данных, битовых строк, специализированных числовых данных (таких, как «деньги»), а также специальных «темпоральных» данных (дата, время, временной интервал). Достаточно активно развивается подход к расширению возможностей реляционных систем абстрактными типами данных (соответствующими возможностями обладают, например, системы семейства Ingres/Postgres). В нашем примере мы имеем дело с данными трех типов: строки символов, целые числа и «деньги». Понятие «домен» более специфично для баз данных, хотя и имеет некоторые аналогии с подтипами в некоторых языках программирования. В самом общем виде домен определяется заданием некоторого базового типа данных, к которому относятся элементы домена, и произвольного логического выражения, применяемого к элементу типа данных. Если вычисление этого логического выражения дает результат «истина», то элемент данных является элементом домена. Наиболее правильной трактовкой понятия «домен» является его понимание как допустимого потенциального множества значений данного типа. Схема отношения — это именованное множество пар [имя атрибута, имя домена (или типа, если понятие «домен» не поддерживается)]. Степень, или «арность», схемы отношения — мощность этого множества. Степень отношения СОТРУДНИКИ равна четырем, т. е. оно является 4-арным. Если все атрибуты одного отношения определены на разных доменах, следует использовать для именования атрибутов имена соответствующих доменов (не забывая, конечно, о том, что это является всего лишь удобным способом именования и не устраняет различия между понятиями «домен» и «атрибут»). Схема базы данных (в структурном смысле) — это набор именованных схем отношений. Кортеж, соответствующий данной схеме отношения, — это множество пар (имя атрибута, значение), которое содержит одно вхождение каждого имени атрибута, принадлежащего схеме отношения. «Значение» является допустимым значением домена данного атрибута (или типа данных, если понятие «домен» не поддерживается). Тем самым степень, или «арность», кортежа, т. е. число элементов в нем, совпадает с «арностью» соответствующей схемы отношения. Попросту говоря, кортеж — это набор именованных значений заданного типа. Отношение — это множество кортежей, соответствующих одной схеме отношения. Иногда, чтобы не путаться, говорят «отношение-схема» и «отношение-экземпляр», иногда схему отношения называют заголовком отношения, а отношение как набор кортежей — телом отношения. На самом деле понятие «схема отношения» ближе всего к понятию «структурный тип данных» в языках программирования. Было бы вполне логично разрешать отдельно определять схему отношения, а затем одно или несколько отношений с данной схемой. Однако в реляционных базах данных это не принято. Имя схемы отношения в таких базах данных всегда совпадает с именем соответствующего отношения-экземпляра. В классических реляционных базах данных после определения схемы базы данных изменяются только отношения-экземпляры. В них могут появляться новые и удаляться или модифицироваться существующие кортежи. Однако во многих реализациях допускается и изменение схемы базы данных: определение новых и изменение существующих схем отношения. Это принято называть эволюцией схемы базы данных. Обычным представлением отношения является таблица, заголовком которой служит схема отношения, а строками — кортежи отношения-экземпляра; в этом случае имена атрибутов именуют столбцы этой таблицы. Поэтому иногда говорят «столбец таблицы», имея в виду «атрибут отношения». Реляционная база данных — это набор отношений, имена которых совпадают с именами схем отношений в схеме БД. Понятие «согласованность данных» — ключевое понятие баз данных. Фактически, если информационная система поддерживает согласованное хранение информации в нескольких файлах, можно говорить о том, что она поддерживает базу данных. Если же некоторая вспомогательная система управления данными позволяет работать с несколькими файлами, обеспечивая их согласованность, то ее можно назвать системой управления базами данных. Требование поддержания согласованности данных в нескольких файлах не позволяет обойтись библиотекой функций: такая система должна иметь некоторые собственные данные (метаданные) и даже знания, определяющие целостность данных. Реляционные базы данных — наиболее популярная структура для хранения данных, поскольку сочетает в себе наглядность представления данных с относительной простотой манипулирования ими. База данных, организованная с помощью инвертированных списков, похожа на реляционную БД. Отличие заключается в том, что хранимые таблицы и пути доступа к ним видны пользователям. При этом: строки таблиц упорядочены системой в некоторой физической последовательности; физическую упорядоченность строк всех таблиц можно определять и для всей БД (так делают, например, в Datacom/DB); для каждой таблицы можно определить произвольное число ключей поиска, для которых строятся индексы. Эти индексы автоматически поддерживаются системой, но явно видны пользователям. Общие правила определения целостности БД отсутствуют. В некоторых системах поддерживаются ограничения уникальности значений некоторых полей, но в основном все возлагается на прикладную программу. Для эффективного выполнения задач создания методов ввода, обновления, обеспечения файлового хранения и контроля за доступом пользователя к файлам вывода данных требуется создать гибкую и хорошо организованную ГИС. СОДЕРЖАНИЕ И КЛАССИФИКАЦИЯ СИСТЕМЫ УПРАВЛЕНИЯ БАЗОЙ ДАННЫХ Эффективное использование цифровых данных предполагает наличие программных средств, обеспечивающих функции их хранения, описания, обновления и т. д. В зависимости от типов и форматов их представления, от уровня программных средств ГИС и некоторых характеристик среды и условий их использования возможны различные варианты организации хранения и доступа к пространственным данным, причем способы организации различаются для позиционной (графической) и семантической их части. В простых программных средствах ГИС отсутствуют специфические средства организации хранения, доступа к данным и манипулирования или эти функции реализуются средствами операционной системы в рамках ее файловой организации. Большинство существующих программных средств ГИС используют для этих целей сложные и эффективные подходы, основанные на организации данных в виде баз данных, управляемых программными средствами, получившими название систем управления базами данных (СУБД). Под СУБД принято понимать комплекс программ и языковых средств, предназначенных для создания, ведения и использования баз данных. Современные СУБД, в том числе те, что использованы в программном обеспечении ГИС, различаются по типам поддерживаемых модулей данных, среди которых выделяют иерархические, сетевые и реляционные и соответствующие им программные средства СУБД. Широкое применение при разработке программного обеспечения ГИС получили реляционные СУБД.
Дата добавления: 2015-04-29; Просмотров: 5873; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |