Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Оптимального управления 8 страница




Рассмотрим более подробно требования к ОСРВ со стороны современных многопроцессорных систем, в том числе с поддерж­кой DSP-процессоров, а также инструментарий, позволяющий быстро и с наилучшими характеристиками создавать соответ­ствующие встроенные системы.

Редко бывает так, что на начальном этапе проектирования встраиваемого приложения уже существуют необходимые аппаСтремление быть на рынке первым приводит к тому, что зачастую при запуске проекта не только оборудова­ние, но даже микросхемы центральных и DSP-процессоров еще находятся на стадии разработки. Чтобы занятые в проекте спе­циалисты могли как можно раньше приступить к разработке программных кодов, алгоритмов, протокольных стеков, неко­торые поставщики ОСРВ предлагают "симуляторы ОСРВ".

Так, по принципу своей работы инструментальные сред­ства Soft Kernel и Soft Environment, созданные компанией OSE, напоминают пакет, служащий буфером между операционной системой и тем или иным аппаратным модулем (BSP — board support package), только в данном случае в роли такого модуля выступает интерфейс 32-разрядных Windows-приложений (Win32 Api). Иными словами, инструмент Soft Environment способен, с одной стороны, использовать функциональные возможности хост-машины и, с другой стороны, взаимодействовать с вне­шним миром. Запустив одновременно несколько инструментов Soft Kernel на одной хост-машине, можно создать модель сете­вой или многопроцессорной среды и вести разработку соответ­ствующего проекта. В одном крупном телекоммуникационном проекте было занято более 650 специалистов, из которых около 450 работали в среде Soft Kernel Environment. Подобные статис­тические данные показывают достоинства инструмента Soft Kernel, отчетливо проявляющиеся в условиях сегодняшней ры­ночной гонки.В некоторых ОСРВ разработчику предлагается возможность динамической загрузки кода в целевую машину, что позволяет сократить число циклов перекомпиляции-перезагрузки и сэко­номить много затрачиваемого на разработку времени. Идея со­стоит в том, что вы можете создать фрагмент программы, от­компилировать его, а затем послать в работающую целевую машину. Если фрагмент работает не вполне корректно, вы мо­дифицируете его, затем повторно компилируете, вновь загру­жаете в целевую машину и т. д. Проявляя известную аккурат­ность, разработку кода могут вести несколько специалистов с использованием одной и той же подключенной к сети целе­вой машины. Загрузчик программ полезен не только при разра­ботке современных встраиваемых систем; он может сыграть памяти нередко является решающим моментом, как из коммер­ческих соображений, так и с точки зрения рабочих характерис­тик продукта.

Разработанный для операционной системы OSE инструмент Memory Profiler (профилировщик памяти) предлагает исчер­пывающую динамическую информацию об использовании па­мяти каждой конкретной задачей, о прохождении сигналов, а также статистическую информацию и иные данные, которые могут помочь оптимизировать использование памяти.

Некоторые поставщики ОСРВ предлагают средства "трасси­ровки событий", способные динамически отображать работаю ­щие задачи и межпроцессные взаимодействия. Регистрация мо­жет производиться через определенные интервалы времени (например, через 50 мкс), в случае наступления определенных событий, по прерываниям и т. п. Создаваемая такими инстру­ментами графическая картина происходящего может служить подспорьем в понимании работы сложного приложения.

Средство трассировки для операционной системы OSE на­зывается Evact Handler (event and action handler — обработчик событий и действий). Данный инструмент позволяет не только осуществлять динамический мониторинг описанного выше типа, но и вводить информацию в работающую систему.

Теперь рассмотрим существующие возможности УВМ.

В настоящий момент общепризнано, что большой резерв в повышении производительности систем возможен и без повы­шения частоты ядра процессора. Возможности по обработке ин­формационных потоков архитектуры стандартных систем не со­ответствуют возросшей тактовой частоте процессоров. Необходимы изменения всех элементов компьютера. Например, много лет использовалась шина PCI (Peripheral Component Interconnect), ее пропускной способности вполне хватало для большинства устройств. С увеличением требований при работе с графическими картами PCI модернизировали, улучшив возмож­ности работы в одном направлении — появился интерфейс AGP (Accelerated Graphics Port). Но пропускной способности такого варианта PCI скоро стало недостаточно, так как она (132 Мб/с) разделялась между всеми PCI-слотами. С целью решения про­блемы неполного использования возможностей исполнительных устройств за счет ограничений шины была разработана после ­довательная шина PCI-Express, работающая по принципу "точ­ка-точка". На физическом уровне шина образована двумя пара­ми проводников: одна для передачи данных, вторая — для приема. Такое построение позволяет всем подключенным устройствам работать на полной скорости и не делить между собой способ­ности шины. Один канал PCI-Express обеспечивает пропускную способность 256 Мб/с в каждую сторону. Таким образом, с учетом полного дуплекса, пропускная способность одного пос­ледовательного подключения PCI-Express составляет 512 Мб/с. Шина PCI-Express разработана с расчетом на широкое масшта­бирование Например, пропускная способность PCI-Express х16 в одном направлении равна 4 Гб/с, а в обоих — 8 Гб/с. Шина PCI-Express имеет солидное преимущество перед AGP, однако загрузка и полное использование ее возможностей осуществля­ются благодаря ее программному обеспечению.

Еще одно нововведение — это DDR2, новый стандарт па­мяти, пришедший на смену DDR SDRAM. В нем используется все та же технология DDR (Double Data Rate) — передача дан­ных по фронту и спаду синхросигнала, за счет чего скорость передачи данных вдвое больше частоты. Основная особенность DDR2 — возможность выборки четырех блоков данных за такт, используются более быстрые буферы ввода-вывода, увеличилась ширина шины, которая связывает эти буферы с банками памя­ти. В DDR2 появилась функция внутричипового терминирова­ния сигнала (on-die termination schemes) — резисторы, гасящие отраженные сигналы, располагаются в чипах памяти, а не на материнских платах, как раньше. Это улучшает характеристики прохождения сигналов по шине памяти. Понизилось энергопот­ребление. Стандарт DDR2 предусматривает максимальную ем­кость модулей памяти до 4 Гбайт.

 

важнейшую роль при обслуживании системы с высоким коэффи­циентом готовности, отключение которой крайне нежелательно.

Пожалуй, одной из наиболее серьезных проблем, с которой имеют дело разработчики программного обеспечения, является тот факт, что создаваемые ими программы работают где-то глу­боко внутри небольшого черного кусочка из кремния и пласти­ка. Специалисты старой закалки могут припомнить, что в бы­лые времена для получения оперативной информации о работе программы приходилось использовать внешние светодиоды, за­жигающиеся на разных стадиях исполнения кода.

В наши дни дела обстоят куда лучше. Многие поставщики ОСРВ предлагают различные работающие на хост-машине сред­ства просмотра. Эти средства в большинстве случаев смогут по­казать вам все запущенные процессы, а также приоритет, со­стояние и другие важнейшие характеристики каждого процесса в отдельности. Для операционной системы OSE такого рода ин­струмент называется Illuminator.

В процессе разработки и отладки предназначенного для встра­иваемой системы программного обеспечения необходимо иметь точные данные относительно загрузки центрального процессо­ра, поскольку наличие подобной информации способствует оп­тимизации производительности программного кода. В комплек­тах инструментальных средств современных ОСРВ имеются такие профилировщики. Средство CPU Profiler (профилировщик цен­трального процессора) для операционной системы OSE позво­ляет выбрать одну или несколько определенных задач и полу­чить ясную картину того, насколько эти задачи загружают центральный процессор, а также того, как влияет эта загрузка на работу системы в целом. Разумеется, качество подобной ин­формации будет зависеть от скорости связи между хостом и це­левой машиной. Компьютерные инженеры, говоря о характеристиках памя­ти, в разных ситуациях имеют в виду разные вещи. Для глубоко встроенного автомобильного микроконтроллера 100 кбайт — это очень большой объем памяти, для мобильного телефона может оказаться недостаточным и 2 Мбайт, а прикладное ПО регист­рации данных может с трудом уместиться 1 Гбайте. И все же каково бы ни было приложение, оптимальное использование. Для организации работы с дисками разработана Matrix Storage Technology, известная как Matrix RAID. От классических RAID- массивов Matrix RAID отличается тем, что для двух жестких дис­ков с интерфейсом SerialATA есть возможность разделить общее дисковое пространство на две части, причем объем каждой из них определяется пользователем, независимо от объемов дис­ков. Одна часть функционирует как скоростной RAID уровня О, другая — как надежный RAID-массив уровня 1. Налицо и ско­рость, и возможность резервного копирования на случай сбоя» Matrix RAID, в отличие от обычных методов организации мас­сивов хранения данных, интегрирована в чипсет и не является программно-независимым,, Возможно подключение к Matrix RAID и третьего физического диска, который может быть задейство­ван для репликации данных с RAID 1 в случае отказа какого- либо из соответствующих дисков. Сейчас Matrix RAID подразу­мевает наличие четырехпортового контроллера SATA RAID для создания Matrix RAID — массива, RAID BIOS ROM — интегри­рованной в системный BIOS части, отвечающей за создание, именование и удаление массивов, Intel RAID Migration Technology — технологии, позволяющей производить апгрейд подсистемы хранения данных до Matrix RAID, интерфейса SerialATA AHCI с поддержкой NCQ и горячего подключения, полного программного управление массивами Matrix RAID.

Производительность "нулевой компоненты" Matrix RAID весьма высока, a Matrix RAID 1 выше, чем у массива из IDE- дисков.

Одно из реальных решений по повышению производитель­ности лежит в плоскости изменения архитектуры процессоров, внедрения многопоточной обработки. При обычной организа­ции работы процессор обрабатывает потоки команд и данных в соответствии с инструкциями счетчика команд (Program Counter, PC), который указывает на место в памяти, где они хранятся. Потоки могут чередоваться, прерывать друг друга, при этом процессор запоминает место остановки каждого процесса и при необходимости продолжает его. Но существует ограниче­ние при работе процессора — в каждую единицу времени он выполняет лишь один поток.

Способность распределить выполнение нескольких пото­ков по ресурсам компьютера часто называют многопоточнос- тью. При этом и операционная система, и приложения должны поддерживать многопоточность для максимально эффективно­го использования ресурсов. Простой способ организации мно- гопоточности на физическом уровне — использование несколь­ких процессоров, когда один процессор в каждый момент времени выполняет один поток.

Фирма Intel предложила другой вариант — Hyper-Threading (гиперпоточную обработку сообщений), обеспечивающую од­новременную многогюточность на одном ядре. У Hyper-Threading (НТ) есть недостатки, однако она не требует усложнения тех­нологии производства чипов и обходится дешевле, чем приме ­нение в процессорах двух физических ядер, что часто является решающим фактором. В Hyper-Threading используется тот факт, что современные процессоры включают в себя несколько ис­полнительных устройств — устройства ALU, устройства для ра­боты с плавающей запятой, устройства загрузки и хранения. Например, в Pentium 4 имеется три целочисленных устройства, причем два из них способны работать с двойной скоростью — выполнять по две микрооперации за такт. То есть потенциально любое из двух целочисленных устройств Pentium 4 могло бы выполнить две различные операции за такт одновременно. Но потребности обычных программ не требуют загрузки сразу всех исполнительных устройств. Обычно они или обходятся целочис­ленными вычислениями, операциями загрузки и хранения дан­ных, либо загружают работой устройства для операций с плава­ющей точкой. В соответствии с данными Intel, большинство программ одновременно используют не более 35 % исполнитель­ных устройств процессора PentiumПоскольку процессор способен занять сразу несколько па­раллельных исполнительных устройств, технология Hyper- Threading направлена на организацию параллелизма на уровне инструкций (Instruction Level Parallelism-ILP), когда одновре­менно выполняются сразу нескольких инструкций. При этом один физический процессор представляется операционной си­стеме как два логических процессора, и операционная система не видит разницы между одним процессором или двумя обыч­ными процессорами. В обоих случаях операционная система на­правляет потоки как на двухпроцессорную систему. Далее все вопросы решаются на аппаратном уровне. В процессоре с Hyper- Threading каждый логический процессор имеет свой собствен­ный набор регистров. Эффективность Hyper-Threading сильно зависит от вида нагрузки на PC, и недостатки технологии в том, что реально используется один процессор. В случае, если на устройство пришло сразу два схожих потока, например:

из операций по загрузке/сохранению, попытка их выполнения приводит к конфликту, и вместо ускоренного параллельного выполнения потоков процессор выполняет их даже медленнее5 чем без Hyper-Threading. С целью решения этой проблемы вве­дена инструкция HALT, которая приостанавливает работу од­ного из логических процессоров в случае приложений, кото­рые проигрывают от включения Hyper-Threading, и обеспечивает производительность однопроцессорного варианта. Затем, когда приложение сочтет, что от Hyper-Threading оно выиграет в производительности, включается второй логический процес­сор. Прирост в производительности от использования Hyper- Threading наблюдается в серверных приложениях из-за разно­образия посылаемых процессору операций. Сервер баз данных, использующих транзакции, может работать на 20—30 % быст­рее при включенной опции Hyper-Threading. Однако не все опе­рационные системы способны адекватно работать с логичес­кими процессорами, то есть корректно поддерживать технологию Hyper-Threading. Для максимально эффективного использования Hyper-Threading необходимо программное обес­печение, использующее все его преимущества.

Уже сейчас эффективность новых архитектурных решений можно видеть на примере процессора Intel Pentium 4 Extreme Edition 3.46 ГГц. Основной рост производительности процессо­ра достигнут за счет технологией НТ, за счет применения быс­трой FSB в 1066 МГц, применения шины PCI Express.

Другим направлением, кардинально меняющим стереотип, что скорость работы определяется частотой, связан с перено­сом внимания компаний на многоядерные процессоры и архи­тектуры систем. Развитие технологии полупроводникового производства, уменьшение размеров элементов и снижение их тепловыделения открывают возможности организации реальной многопроцессорности за счет создания других ядер на базе од­ного чипа. Так как многоядерные процессоры обеспечивают сим­метричную мультипроцессорную обработку данных на одном кристалле, при организации многопоточной обработки инфор­мации это ведет к повышению производительности системы в целом. Двухъядерный процессор, имеющий два ядра на одной подложке, при одинаковой с одноядерным чипом производи­тельности, работает на значительно более низкой частоте, мень­ше потребляет и выделяет энергии.

Считается, что будущее вычислительной техники — за рас­пределенной обработкой данных в сетях. Поэтому многопоточ­ная архитектура процессоров будет в большой степени соответ­ствовать этим потребностям. Фирмы Sun Microsystems и IBM уже выпустили подобные процессоры для серверного применения. Компания AMD также завершила разработку нового двухъядер- ного процессора, модифицированного как Athlon 64 (Opteron). Он имеет интегрированные в 64-разрядные процессоры контрол­лер памяти и шину Hyper Transport, что теоретически позволя ­ет добиться от двухъядерного процессора производительности, аналогичной производительности двух раздельных процессоров, объединенных в рамках единой системы. В двухъядерных процес­сорах используется общий контроллер памяти, что разрешает конфликт интересов и улучшает пропускную способность сис­темы. В двухъядерной архитектуре AMD каждое процессорное ядро использует собственную кэш-память второго уровня. Именно поэтому встроенный в процессоры собственный контроллер памяти обусловливает резкий рост производительности, недо­ступный при технологии Hyper-Threading.

Для межъядерных связей используется шина Hyper Transport с пиковой скоростью обмена данными 6,4 Гбайт/с на частоте 800 МГц. Позднее планируется использовать Hyper Transport с большей пропускной способностью.

Компания Intel, понимая, что "виртуальная двухъядерность" за счет технологии Hyper-Threading не может противостоять ре­альной многоядерности, разработала 64-разрядный чип с кодо­вым названием Montecito. Помимо двухъядерности, Montecito будет обладать и мношпоточностыо, т. е. операционная система будет видеть единственный процессор как четыре логических. Количе­ство транзисторов на кристалле Montecito — 1,72 млрд, что объяс­няется в первую очередь объемом кэш-памяти третьего уровня — 24 Мбайт. Объем кэш-памяти второго уровня у Montecito соста­вит 1,25 Мбайт (256 кбайт — для данных, 1 Мбайт — инструк­ции), а первого уровня — 64 кбайт (по 32 кбайт для данных и инструкций). Предусмотрены и так называемые буферы про­махов, контролирующие работу кэш-памяти второго и третьего уровней. Повышение производительность Montecito достигается за счет большого объем кэш-памяти, высокой тактовой частотой в сочетании с мношядерностью, многопоточной обработкой и более совершенной технологией изготовления.

В этих процессорах применяется новая технология внутрен­ней "распределительной" (arbiter) шины, предназначенной для управления двумя и более процессорными ядрами с пропускной способностью до 6,4 Гбайт/с и производительностью до 400 млн транзакций в секунду. В новом процессоре используются техноло­гии Silvervale (серверный вариант технологии виртуализации, позволяющей процессору поддерживать на аппаратном уровне одновременную работу нескольких операционных систем), Pellston (повышение надежности кэш-памяти за счет отключения неисп­равных сегментов), Foxton (динамическое переключение такто­вой частоты и рабочего напряжения в зависимости от вычисли­тельной нагрузки). Схема арбитража в Montecito реализуется при помощи так называемого snoop-контроллера, отслеживающего выполнение инструкций в обоих ядрах. Механизм под названием Dynamic Thread Switching (динамическое переключение потоков) способен, как утверждают в Intel, фиксировать обработку опера­ций, связанных с длительными задержками, и инициировать пе­реход к обработке соседнего потока инструкций. Планируется, что за Montecito последует процессор Tanglewood, который будет иметь более двух ядер с возможностью установки до 6 Мбайт кэша и пропускной способностью системной шины 6,4 Гбайт/с.

Прогресс в области разработки компьютеров столь стреми­телен, что любой обзор текущих технических решений устаре­вает к моменту его опубликования. Однако сейчас есть основа­ния предполагать, что описанные технологии в том или ином виде будут развиваться всеми фирмами — разработчиками ком­пьютеров. Направление развития компьютеров будет определяться тремя фундаментальными элементами — вычислительной сис­темой, интерфейсом и инфраструктурой.

Таким образом, в ближайшее время основные усилия будут направлены на всесторонний пересмотр основ проектирования технологических процессов, используемых в производстве чи­пов, их архитектуры и программного обеспечения. Будет увели­чено число функций процессора, добавятся многообразные вы числительные и коммуникационные возможности, возможность прямого взаимодействия со всеми остальными компонентами платформы. Будет осуществлен переход от единственного моно­литного ядра ко множеству ядер на одном кристалле с расши­ренным набором встроенных вычислительных возможностей. Процессоры будут включать специализированные ядра для вы­полнения различных классов вычислений — таких, как графи­ка, алгоритмы распознавания речи и обработка коммуникаци­онных протоколов.

В процессе развития технологии процессоры будут снабже­ны внутрикристальными подсистемами памяти, до единиц ги­габайт и с интеллектуальным микроядром. Кэш-память станет реконфигурируемой, можно будет динамически перераспреде­лять память для разных ядер. Конструирование процессоров и платформ двигается в направлении реконфигурируемой архи­тектуры на уровне кристалла. Процессор будет допускать дина­мическую реконфигурацию ядер, межкомпонентных соедине­ний и кэш-памяти, чтобы обеспечить соответствие аппаратных устройств многообразным и изменяющимся потребностям. Раз­витие архитектуры будет вестись на основе ряда технологий, ведущих к росту производительности — многопроцессорной об­работки на уровне кристалла (СМР), повышению уровня па­раллелизма.

Процессор будет активизировать только те ядра, которые необходимы для выполнения текущей задачи, тогда как осталь­ные ядра будут отключены. Это позволяет кристаллу потреблять адекватное задаче количество энергии, получить большой выиг­рыш в скорости, существенную экономию места, сократить энер­гопотребление, улучшить охлаждение.

Разрабатывается реконфигурируемая встроенная радиоархи­тектура, которая позволит процессору динамически перестраи­ваться для работы в различных сетевых беспроводных средах (та­ких, как 802.11b, 802.11а и W-CDMA).Рассматривая производительность УВМ, можно отметить, что основной объем решаемых компьютерами задач сейчас обес­печивается машинами с конфигурацией, содержащей один или несколько процессоров. Для моделирования многофакторных процессов, при применении в сложных контурах управления, их производительности бывает недостаточно. Различные фирмы разрабатывают и выпускают компьютеры повышенной произво­дительности, или, иначе, суперкомпьютеры. Как правило, они строятся на серийно выпускаемых процессорах, и повышение мощности достигается за счет технических решений, связанных с архитектурой таких систем. Понятно, что предел быстродей­ствия при решении задачи с помощью последовательных вычис­лений не может превысить технические ограничения, связанные с достижимой рабочей частотой процессоров (сейчас несколько гигагерц). Поэтому практически только совокупность алгоритмов, позволяющих организовать и использовать параллельные вычис ­ления, и система, организующая параллельную работу процессо­ров, составляет понятие суперкомпьютер. Разработка супер – компьтеров - сложное и престижное дело, поэтому фирмы- разработчики постоянно оценивают свои достижения. Данные на конец 2005 года по первой десятке мировых суперкомпьютеров, введенных в эксплуатацию, приведены в табл. 2.2 (для примера приведены данные и для последнего, 500-го места).

 

 

 


Суперкомпьютер, занимающий первое место в списке на­ходящихся в эксплуатации, содержит 32 768 процессоров PowerPC с рабочей частотой 0,7 ГГц и при этом имеет расчет­ную производительность 91750 Гфлоп (91,75 Тфлоп). Однако этот компьютер поставил мировой рекорд быстродействия и показал результат 135,5 Тфлопа, Но это не предел для разрабо­танной конфигурации. При ее расширении теоретически быст­родействие Blue Gene/L может составить примерно 360 Тфлоп, но на него можно будет выйти только после ввода в строй до­полнительных стоек с микропроцессорами. Машина займет около 60 гигантских шкафов — при этом, как уверяют инженеры, впер­вые в истории отрасли удастся решить проблему перегрева ЭВМ.

Другие, входящие в число наиболее мощных компьютеров, имеют не менее впечатляющие характеристики.

Надо отметить, что не каждая задача может быть так распа­раллелена, чтобы обеспечить синхронную работу всех процес­соров для достижения максимальной производительности сис­темы. С целью повышения эффективности работы системы, в том числе и с точки зрения стоимости, предлагаются различ­ные технические решения, позволяющие подобрать архитекту­ру суперкомпьютера к классу решаемых задач.

Например, известная фирма Cray, специализирующаяся на изготовлении суперкомпьютеров, поставляет систему Cray XI — масштабируемый векторный суперкомпьютер. В нем использу­ются 16-конвейерные векторные процессоры с пиковой произ­водительностью 12,8 Гфлоп. Тактовая частота процессоров — 800 МГц. В максимальной конфигурации применяется до 4096 процессоров. Каждый процессор может содержать до 16 Гбайт памяти, т. е. система может содержать до 64Тбайт памяти. Вся память глобально адресуема, максимальная скорость обмена (че­рез 32 порта) с оперативной памятью составляет 34.1 Гбайт/с. на процессор, скорость обмена с кэш-памятью 76.8 Гбайт/с. на процессор. Используется операционная система UNICQS/mp. Реализованы компиляторы с языков Фортран и Си++, включа­ющие возможности автоматической векторизации и распарал­леливания, специальные оптимизированные библиотеки, интер­активный отладчик и средства для анализа производительности. Приложения могут писаться с использованием MPI, ОрепМР, Co-array Fortran и Unified Parallel С (UPC).

Другой производимый компьютер той же фирмы Cray ТЗЕ — масштабируемая матрично-параллельная система, состоит из процессорных элементов, которые включают в себя процессор, блок памяти и устройство сопряжения с сетью. Используются процессоры Alpha 21164 (EV5) с тактовой частотой до 675 МГц, пиковая производительность которых составляет 1,35 Тфлоп. Про­цессорный элемент располагает своей локальной памятью до 2 Гбайт. Системы ТЗЕ масштабируются до 2048 процессорных элементов, связанных сетью GigaRing с топологией трехмерно­го тора и двунаправленными каналами со скоростью обменов до 500 Мбайт/с в каждом направлении. Используется операцион­ная система UNICOS/mk. Поддерживается явное параллельное программирование с помощью пакета Message Passing Toolkit (MPT) — реализации интерфейсов передачи сообщений MPI, МР1-2 и PVM, библиотека Shmem. Для Фортран-программ воз­можно также неявное распараллеливание в моделях CRAFT и HPF. Среда разработки включает также набор визуальных средств для анализа и отладки параллельных программ.

Разработанный фирмой Cray суперкомпьютер Cray ХТЗ яв­ляется матрично-параллельным компьютером, с вычислитель­ными узлами, включающими в себя процессор AMD Opteron 2,4 ГГц, локальную память до 8 Гбайт со скоростью обмена 6,4 Гбайт/с., и канал HyperTransport к коммуникационному блоку Cray SeaStar. Коммуникационная технология Cray SeaStar по­зволяет объединить все вычислительные узлы Cray ХТЗ по топо­логии трехмерного тора. Коммуникационная плата Cray SeaStar включает в себя канал HyperTransport, Direct Memory Access (DMA), коммуникационный микропроцессор, interconnect router и управляющий порт. Interconnect router обеспечивает 6 высокоскоростных каналов связи с пиковой пропускной спо­собностью каждого в двунаправленном режиме 7,6 Гбайт/с.

Вычислительные узлы Cray ХТЗ компонуются в стойки (до 96 вычислительных узлов на стойку). Максимальная конфигура­ция содержит 320 стоек, с общим числом 30 508 процессоров, расположенных по трехмерной топологии 40*32*24, с объемом внутренней памяти 239 Тбайт. Потенциальная пиковая произво­дительность при такой конфигурации 147 Система работает под управлением ОС UNICOS/lc, позво­ляющей эффективно объединять до 30000 вычислительных уз­лов. На компьютере устанавливаются компиляторы Fortran 77, 90, 95, C/C++, коммуникационные библиотеки MPI (с под­держкой стандарта MPI 2.0) и SHMEM, а также оптимизиро­ванные версии библиотек BLAS, FFTs, LAPACK, ScaLAPACK Для анализа производительности системы устанав - ливается система Cray Apprentice2 performance analysis tools.

Суперкомпьютер SGI Altix3000 фирмы Silicon Graphics — модульная система с общей памятью, построенная на процес­сорах Intel Itanium II 1.3GHz/L5GHz. Вся система строится из модулей. Вычислительный компонент системы — модуль C-brick, состоящий из 2 -х блоков по 2 процессора, и памяти — до 16 Гбайт на C-brick.. Вся память системы глобально адресуема, аппаратно поддерживается когерентность кэшей. Модули системы соеди­нены с помощью сети NUMAlink, построенной на собственных маршрутизаторах R-bricks. Используется доработанная операци­онная система Linux.

NEC SX-5 фирмы NEC — параллельный векторный супер­компьютер. Каждый узел системы является векторно-конвей- ерным компьютером, объединяющим до 16 индивидуальных векторных процессоров (каждый с пиковой векторной произ­водительностью 8 Гфлоп и скалярной производительностью 500 Мфлоп). Объем памяти каждого узла — до 128 Гбайт, про­изводительность обмена с памятью достигает 1 Тбайт/с. Систе­ма может включать до 128 узлов, обеспечивая совокупную пи­ковую производительность до 8 Тфлоп.

В нашей стране также ведутся исследования в области разработки суперкомпьютеров, и их изготовление.

 

 


Первые управляющие вычислительные комплексы (УВК) имели архитектуру "общая шина", которая была заимствована из архитектуры компьютера. Для соединения нескольких функцио­нальных устройств компьютера использовали общую шину (single bus), как показано на рис. 2.29. К этой шине подсоединяются все устройства компьютера. Поскольку за один раз по шине мо­жет пересылаться только одно слово данных, в каждый конк­ретный момент шину могут использовать только два устройства.




Поделиться с друзьями:


Дата добавления: 2015-04-29; Просмотров: 334; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.033 сек.