КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Оптимального управления 8 страница
Рассмотрим более подробно требования к ОСРВ со стороны современных многопроцессорных систем, в том числе с поддержкой DSP-процессоров, а также инструментарий, позволяющий быстро и с наилучшими характеристиками создавать соответствующие встроенные системы. Редко бывает так, что на начальном этапе проектирования встраиваемого приложения уже существуют необходимые аппаСтремление быть на рынке первым приводит к тому, что зачастую при запуске проекта не только оборудование, но даже микросхемы центральных и DSP-процессоров еще находятся на стадии разработки. Чтобы занятые в проекте специалисты могли как можно раньше приступить к разработке программных кодов, алгоритмов, протокольных стеков, некоторые поставщики ОСРВ предлагают "симуляторы ОСРВ". Так, по принципу своей работы инструментальные средства Soft Kernel и Soft Environment, созданные компанией OSE, напоминают пакет, служащий буфером между операционной системой и тем или иным аппаратным модулем (BSP — board support package), только в данном случае в роли такого модуля выступает интерфейс 32-разрядных Windows-приложений (Win32 Api). Иными словами, инструмент Soft Environment способен, с одной стороны, использовать функциональные возможности хост-машины и, с другой стороны, взаимодействовать с внешним миром. Запустив одновременно несколько инструментов Soft Kernel на одной хост-машине, можно создать модель сетевой или многопроцессорной среды и вести разработку соответствующего проекта. В одном крупном телекоммуникационном проекте было занято более 650 специалистов, из которых около 450 работали в среде Soft Kernel Environment. Подобные статистические данные показывают достоинства инструмента Soft Kernel, отчетливо проявляющиеся в условиях сегодняшней рыночной гонки.В некоторых ОСРВ разработчику предлагается возможность динамической загрузки кода в целевую машину, что позволяет сократить число циклов перекомпиляции-перезагрузки и сэкономить много затрачиваемого на разработку времени. Идея состоит в том, что вы можете создать фрагмент программы, откомпилировать его, а затем послать в работающую целевую машину. Если фрагмент работает не вполне корректно, вы модифицируете его, затем повторно компилируете, вновь загружаете в целевую машину и т. д. Проявляя известную аккуратность, разработку кода могут вести несколько специалистов с использованием одной и той же подключенной к сети целевой машины. Загрузчик программ полезен не только при разработке современных встраиваемых систем; он может сыграть памяти нередко является решающим моментом, как из коммерческих соображений, так и с точки зрения рабочих характеристик продукта. Разработанный для операционной системы OSE инструмент Memory Profiler (профилировщик памяти) предлагает исчерпывающую динамическую информацию об использовании памяти каждой конкретной задачей, о прохождении сигналов, а также статистическую информацию и иные данные, которые могут помочь оптимизировать использование памяти. Некоторые поставщики ОСРВ предлагают средства "трассировки событий", способные динамически отображать работаю щие задачи и межпроцессные взаимодействия. Регистрация может производиться через определенные интервалы времени (например, через 50 мкс), в случае наступления определенных событий, по прерываниям и т. п. Создаваемая такими инструментами графическая картина происходящего может служить подспорьем в понимании работы сложного приложения. Средство трассировки для операционной системы OSE называется Evact Handler (event and action handler — обработчик событий и действий). Данный инструмент позволяет не только осуществлять динамический мониторинг описанного выше типа, но и вводить информацию в работающую систему. Теперь рассмотрим существующие возможности УВМ. В настоящий момент общепризнано, что большой резерв в повышении производительности систем возможен и без повышения частоты ядра процессора. Возможности по обработке информационных потоков архитектуры стандартных систем не соответствуют возросшей тактовой частоте процессоров. Необходимы изменения всех элементов компьютера. Например, много лет использовалась шина PCI (Peripheral Component Interconnect), ее пропускной способности вполне хватало для большинства устройств. С увеличением требований при работе с графическими картами PCI модернизировали, улучшив возможности работы в одном направлении — появился интерфейс AGP (Accelerated Graphics Port). Но пропускной способности такого варианта PCI скоро стало недостаточно, так как она (132 Мб/с) разделялась между всеми PCI-слотами. С целью решения проблемы неполного использования возможностей исполнительных устройств за счет ограничений шины была разработана после довательная шина PCI-Express, работающая по принципу "точка-точка". На физическом уровне шина образована двумя парами проводников: одна для передачи данных, вторая — для приема. Такое построение позволяет всем подключенным устройствам работать на полной скорости и не делить между собой способности шины. Один канал PCI-Express обеспечивает пропускную способность 256 Мб/с в каждую сторону. Таким образом, с учетом полного дуплекса, пропускная способность одного последовательного подключения PCI-Express составляет 512 Мб/с. Шина PCI-Express разработана с расчетом на широкое масштабирование Например, пропускная способность PCI-Express х16 в одном направлении равна 4 Гб/с, а в обоих — 8 Гб/с. Шина PCI-Express имеет солидное преимущество перед AGP, однако загрузка и полное использование ее возможностей осуществляются благодаря ее программному обеспечению. Еще одно нововведение — это DDR2, новый стандарт памяти, пришедший на смену DDR SDRAM. В нем используется все та же технология DDR (Double Data Rate) — передача данных по фронту и спаду синхросигнала, за счет чего скорость передачи данных вдвое больше частоты. Основная особенность DDR2 — возможность выборки четырех блоков данных за такт, используются более быстрые буферы ввода-вывода, увеличилась ширина шины, которая связывает эти буферы с банками памяти. В DDR2 появилась функция внутричипового терминирования сигнала (on-die termination schemes) — резисторы, гасящие отраженные сигналы, располагаются в чипах памяти, а не на материнских платах, как раньше. Это улучшает характеристики прохождения сигналов по шине памяти. Понизилось энергопотребление. Стандарт DDR2 предусматривает максимальную емкость модулей памяти до 4 Гбайт.
важнейшую роль при обслуживании системы с высоким коэффициентом готовности, отключение которой крайне нежелательно. Пожалуй, одной из наиболее серьезных проблем, с которой имеют дело разработчики программного обеспечения, является тот факт, что создаваемые ими программы работают где-то глубоко внутри небольшого черного кусочка из кремния и пластика. Специалисты старой закалки могут припомнить, что в былые времена для получения оперативной информации о работе программы приходилось использовать внешние светодиоды, зажигающиеся на разных стадиях исполнения кода. В наши дни дела обстоят куда лучше. Многие поставщики ОСРВ предлагают различные работающие на хост-машине средства просмотра. Эти средства в большинстве случаев смогут показать вам все запущенные процессы, а также приоритет, состояние и другие важнейшие характеристики каждого процесса в отдельности. Для операционной системы OSE такого рода инструмент называется Illuminator. В процессе разработки и отладки предназначенного для встраиваемой системы программного обеспечения необходимо иметь точные данные относительно загрузки центрального процессора, поскольку наличие подобной информации способствует оптимизации производительности программного кода. В комплектах инструментальных средств современных ОСРВ имеются такие профилировщики. Средство CPU Profiler (профилировщик центрального процессора) для операционной системы OSE позволяет выбрать одну или несколько определенных задач и получить ясную картину того, насколько эти задачи загружают центральный процессор, а также того, как влияет эта загрузка на работу системы в целом. Разумеется, качество подобной информации будет зависеть от скорости связи между хостом и целевой машиной. Компьютерные инженеры, говоря о характеристиках памяти, в разных ситуациях имеют в виду разные вещи. Для глубоко встроенного автомобильного микроконтроллера 100 кбайт — это очень большой объем памяти, для мобильного телефона может оказаться недостаточным и 2 Мбайт, а прикладное ПО регистрации данных может с трудом уместиться 1 Гбайте. И все же каково бы ни было приложение, оптимальное использование. Для организации работы с дисками разработана Matrix Storage Technology, известная как Matrix RAID. От классических RAID- массивов Matrix RAID отличается тем, что для двух жестких дисков с интерфейсом SerialATA есть возможность разделить общее дисковое пространство на две части, причем объем каждой из них определяется пользователем, независимо от объемов дисков. Одна часть функционирует как скоростной RAID уровня О, другая — как надежный RAID-массив уровня 1. Налицо и скорость, и возможность резервного копирования на случай сбоя» Matrix RAID, в отличие от обычных методов организации массивов хранения данных, интегрирована в чипсет и не является программно-независимым,, Возможно подключение к Matrix RAID и третьего физического диска, который может быть задействован для репликации данных с RAID 1 в случае отказа какого- либо из соответствующих дисков. Сейчас Matrix RAID подразумевает наличие четырехпортового контроллера SATA RAID для создания Matrix RAID — массива, RAID BIOS ROM — интегрированной в системный BIOS части, отвечающей за создание, именование и удаление массивов, Intel RAID Migration Technology — технологии, позволяющей производить апгрейд подсистемы хранения данных до Matrix RAID, интерфейса SerialATA AHCI с поддержкой NCQ и горячего подключения, полного программного управление массивами Matrix RAID. Производительность "нулевой компоненты" Matrix RAID весьма высока, a Matrix RAID 1 выше, чем у массива из IDE- дисков. Одно из реальных решений по повышению производительности лежит в плоскости изменения архитектуры процессоров, внедрения многопоточной обработки. При обычной организации работы процессор обрабатывает потоки команд и данных в соответствии с инструкциями счетчика команд (Program Counter, PC), который указывает на место в памяти, где они хранятся. Потоки могут чередоваться, прерывать друг друга, при этом процессор запоминает место остановки каждого процесса и при необходимости продолжает его. Но существует ограничение при работе процессора — в каждую единицу времени он выполняет лишь один поток. Способность распределить выполнение нескольких потоков по ресурсам компьютера часто называют многопоточнос- тью. При этом и операционная система, и приложения должны поддерживать многопоточность для максимально эффективного использования ресурсов. Простой способ организации мно- гопоточности на физическом уровне — использование нескольких процессоров, когда один процессор в каждый момент времени выполняет один поток. Фирма Intel предложила другой вариант — Hyper-Threading (гиперпоточную обработку сообщений), обеспечивающую одновременную многогюточность на одном ядре. У Hyper-Threading (НТ) есть недостатки, однако она не требует усложнения технологии производства чипов и обходится дешевле, чем приме нение в процессорах двух физических ядер, что часто является решающим фактором. В Hyper-Threading используется тот факт, что современные процессоры включают в себя несколько исполнительных устройств — устройства ALU, устройства для работы с плавающей запятой, устройства загрузки и хранения. Например, в Pentium 4 имеется три целочисленных устройства, причем два из них способны работать с двойной скоростью — выполнять по две микрооперации за такт. То есть потенциально любое из двух целочисленных устройств Pentium 4 могло бы выполнить две различные операции за такт одновременно. Но потребности обычных программ не требуют загрузки сразу всех исполнительных устройств. Обычно они или обходятся целочисленными вычислениями, операциями загрузки и хранения данных, либо загружают работой устройства для операций с плавающей точкой. В соответствии с данными Intel, большинство программ одновременно используют не более 35 % исполнительных устройств процессора PentiumПоскольку процессор способен занять сразу несколько параллельных исполнительных устройств, технология Hyper- Threading направлена на организацию параллелизма на уровне инструкций (Instruction Level Parallelism-ILP), когда одновременно выполняются сразу нескольких инструкций. При этом один физический процессор представляется операционной системе как два логических процессора, и операционная система не видит разницы между одним процессором или двумя обычными процессорами. В обоих случаях операционная система направляет потоки как на двухпроцессорную систему. Далее все вопросы решаются на аппаратном уровне. В процессоре с Hyper- Threading каждый логический процессор имеет свой собственный набор регистров. Эффективность Hyper-Threading сильно зависит от вида нагрузки на PC, и недостатки технологии в том, что реально используется один процессор. В случае, если на устройство пришло сразу два схожих потока, например: из операций по загрузке/сохранению, попытка их выполнения приводит к конфликту, и вместо ускоренного параллельного выполнения потоков процессор выполняет их даже медленнее5 чем без Hyper-Threading. С целью решения этой проблемы введена инструкция HALT, которая приостанавливает работу одного из логических процессоров в случае приложений, которые проигрывают от включения Hyper-Threading, и обеспечивает производительность однопроцессорного варианта. Затем, когда приложение сочтет, что от Hyper-Threading оно выиграет в производительности, включается второй логический процессор. Прирост в производительности от использования Hyper- Threading наблюдается в серверных приложениях из-за разнообразия посылаемых процессору операций. Сервер баз данных, использующих транзакции, может работать на 20—30 % быстрее при включенной опции Hyper-Threading. Однако не все операционные системы способны адекватно работать с логическими процессорами, то есть корректно поддерживать технологию Hyper-Threading. Для максимально эффективного использования Hyper-Threading необходимо программное обеспечение, использующее все его преимущества. Уже сейчас эффективность новых архитектурных решений можно видеть на примере процессора Intel Pentium 4 Extreme Edition 3.46 ГГц. Основной рост производительности процессора достигнут за счет технологией НТ, за счет применения быстрой FSB в 1066 МГц, применения шины PCI Express. Другим направлением, кардинально меняющим стереотип, что скорость работы определяется частотой, связан с переносом внимания компаний на многоядерные процессоры и архитектуры систем. Развитие технологии полупроводникового производства, уменьшение размеров элементов и снижение их тепловыделения открывают возможности организации реальной многопроцессорности за счет создания других ядер на базе одного чипа. Так как многоядерные процессоры обеспечивают симметричную мультипроцессорную обработку данных на одном кристалле, при организации многопоточной обработки информации это ведет к повышению производительности системы в целом. Двухъядерный процессор, имеющий два ядра на одной подложке, при одинаковой с одноядерным чипом производительности, работает на значительно более низкой частоте, меньше потребляет и выделяет энергии. Считается, что будущее вычислительной техники — за распределенной обработкой данных в сетях. Поэтому многопоточная архитектура процессоров будет в большой степени соответствовать этим потребностям. Фирмы Sun Microsystems и IBM уже выпустили подобные процессоры для серверного применения. Компания AMD также завершила разработку нового двухъядер- ного процессора, модифицированного как Athlon 64 (Opteron). Он имеет интегрированные в 64-разрядные процессоры контроллер памяти и шину Hyper Transport, что теоретически позволя ет добиться от двухъядерного процессора производительности, аналогичной производительности двух раздельных процессоров, объединенных в рамках единой системы. В двухъядерных процессорах используется общий контроллер памяти, что разрешает конфликт интересов и улучшает пропускную способность системы. В двухъядерной архитектуре AMD каждое процессорное ядро использует собственную кэш-память второго уровня. Именно поэтому встроенный в процессоры собственный контроллер памяти обусловливает резкий рост производительности, недоступный при технологии Hyper-Threading. Для межъядерных связей используется шина Hyper Transport с пиковой скоростью обмена данными 6,4 Гбайт/с на частоте 800 МГц. Позднее планируется использовать Hyper Transport с большей пропускной способностью. Компания Intel, понимая, что "виртуальная двухъядерность" за счет технологии Hyper-Threading не может противостоять реальной многоядерности, разработала 64-разрядный чип с кодовым названием Montecito. Помимо двухъядерности, Montecito будет обладать и мношпоточностыо, т. е. операционная система будет видеть единственный процессор как четыре логических. Количество транзисторов на кристалле Montecito — 1,72 млрд, что объясняется в первую очередь объемом кэш-памяти третьего уровня — 24 Мбайт. Объем кэш-памяти второго уровня у Montecito составит 1,25 Мбайт (256 кбайт — для данных, 1 Мбайт — инструкции), а первого уровня — 64 кбайт (по 32 кбайт для данных и инструкций). Предусмотрены и так называемые буферы промахов, контролирующие работу кэш-памяти второго и третьего уровней. Повышение производительность Montecito достигается за счет большого объем кэш-памяти, высокой тактовой частотой в сочетании с мношядерностью, многопоточной обработкой и более совершенной технологией изготовления. В этих процессорах применяется новая технология внутренней "распределительной" (arbiter) шины, предназначенной для управления двумя и более процессорными ядрами с пропускной способностью до 6,4 Гбайт/с и производительностью до 400 млн транзакций в секунду. В новом процессоре используются технологии Silvervale (серверный вариант технологии виртуализации, позволяющей процессору поддерживать на аппаратном уровне одновременную работу нескольких операционных систем), Pellston (повышение надежности кэш-памяти за счет отключения неисправных сегментов), Foxton (динамическое переключение тактовой частоты и рабочего напряжения в зависимости от вычислительной нагрузки). Схема арбитража в Montecito реализуется при помощи так называемого snoop-контроллера, отслеживающего выполнение инструкций в обоих ядрах. Механизм под названием Dynamic Thread Switching (динамическое переключение потоков) способен, как утверждают в Intel, фиксировать обработку операций, связанных с длительными задержками, и инициировать переход к обработке соседнего потока инструкций. Планируется, что за Montecito последует процессор Tanglewood, который будет иметь более двух ядер с возможностью установки до 6 Мбайт кэша и пропускной способностью системной шины 6,4 Гбайт/с. Прогресс в области разработки компьютеров столь стремителен, что любой обзор текущих технических решений устаревает к моменту его опубликования. Однако сейчас есть основания предполагать, что описанные технологии в том или ином виде будут развиваться всеми фирмами — разработчиками компьютеров. Направление развития компьютеров будет определяться тремя фундаментальными элементами — вычислительной системой, интерфейсом и инфраструктурой. Таким образом, в ближайшее время основные усилия будут направлены на всесторонний пересмотр основ проектирования технологических процессов, используемых в производстве чипов, их архитектуры и программного обеспечения. Будет увеличено число функций процессора, добавятся многообразные вы числительные и коммуникационные возможности, возможность прямого взаимодействия со всеми остальными компонентами платформы. Будет осуществлен переход от единственного монолитного ядра ко множеству ядер на одном кристалле с расширенным набором встроенных вычислительных возможностей. Процессоры будут включать специализированные ядра для выполнения различных классов вычислений — таких, как графика, алгоритмы распознавания речи и обработка коммуникационных протоколов. В процессе развития технологии процессоры будут снабжены внутрикристальными подсистемами памяти, до единиц гигабайт и с интеллектуальным микроядром. Кэш-память станет реконфигурируемой, можно будет динамически перераспределять память для разных ядер. Конструирование процессоров и платформ двигается в направлении реконфигурируемой архитектуры на уровне кристалла. Процессор будет допускать динамическую реконфигурацию ядер, межкомпонентных соединений и кэш-памяти, чтобы обеспечить соответствие аппаратных устройств многообразным и изменяющимся потребностям. Развитие архитектуры будет вестись на основе ряда технологий, ведущих к росту производительности — многопроцессорной обработки на уровне кристалла (СМР), повышению уровня параллелизма. Процессор будет активизировать только те ядра, которые необходимы для выполнения текущей задачи, тогда как остальные ядра будут отключены. Это позволяет кристаллу потреблять адекватное задаче количество энергии, получить большой выигрыш в скорости, существенную экономию места, сократить энергопотребление, улучшить охлаждение. Разрабатывается реконфигурируемая встроенная радиоархитектура, которая позволит процессору динамически перестраиваться для работы в различных сетевых беспроводных средах (таких, как 802.11b, 802.11а и W-CDMA).Рассматривая производительность УВМ, можно отметить, что основной объем решаемых компьютерами задач сейчас обеспечивается машинами с конфигурацией, содержащей один или несколько процессоров. Для моделирования многофакторных процессов, при применении в сложных контурах управления, их производительности бывает недостаточно. Различные фирмы разрабатывают и выпускают компьютеры повышенной производительности, или, иначе, суперкомпьютеры. Как правило, они строятся на серийно выпускаемых процессорах, и повышение мощности достигается за счет технических решений, связанных с архитектурой таких систем. Понятно, что предел быстродействия при решении задачи с помощью последовательных вычислений не может превысить технические ограничения, связанные с достижимой рабочей частотой процессоров (сейчас несколько гигагерц). Поэтому практически только совокупность алгоритмов, позволяющих организовать и использовать параллельные вычис ления, и система, организующая параллельную работу процессоров, составляет понятие суперкомпьютер. Разработка супер – компьтеров - сложное и престижное дело, поэтому фирмы- разработчики постоянно оценивают свои достижения. Данные на конец 2005 года по первой десятке мировых суперкомпьютеров, введенных в эксплуатацию, приведены в табл. 2.2 (для примера приведены данные и для последнего, 500-го места).
Суперкомпьютер, занимающий первое место в списке находящихся в эксплуатации, содержит 32 768 процессоров PowerPC с рабочей частотой 0,7 ГГц и при этом имеет расчетную производительность 91750 Гфлоп (91,75 Тфлоп). Однако этот компьютер поставил мировой рекорд быстродействия и показал результат 135,5 Тфлопа, Но это не предел для разработанной конфигурации. При ее расширении теоретически быстродействие Blue Gene/L может составить примерно 360 Тфлоп, но на него можно будет выйти только после ввода в строй дополнительных стоек с микропроцессорами. Машина займет около 60 гигантских шкафов — при этом, как уверяют инженеры, впервые в истории отрасли удастся решить проблему перегрева ЭВМ. Другие, входящие в число наиболее мощных компьютеров, имеют не менее впечатляющие характеристики. Надо отметить, что не каждая задача может быть так распараллелена, чтобы обеспечить синхронную работу всех процессоров для достижения максимальной производительности системы. С целью повышения эффективности работы системы, в том числе и с точки зрения стоимости, предлагаются различные технические решения, позволяющие подобрать архитектуру суперкомпьютера к классу решаемых задач. Например, известная фирма Cray, специализирующаяся на изготовлении суперкомпьютеров, поставляет систему Cray XI — масштабируемый векторный суперкомпьютер. В нем используются 16-конвейерные векторные процессоры с пиковой производительностью 12,8 Гфлоп. Тактовая частота процессоров — 800 МГц. В максимальной конфигурации применяется до 4096 процессоров. Каждый процессор может содержать до 16 Гбайт памяти, т. е. система может содержать до 64Тбайт памяти. Вся память глобально адресуема, максимальная скорость обмена (через 32 порта) с оперативной памятью составляет 34.1 Гбайт/с. на процессор, скорость обмена с кэш-памятью 76.8 Гбайт/с. на процессор. Используется операционная система UNICQS/mp. Реализованы компиляторы с языков Фортран и Си++, включающие возможности автоматической векторизации и распараллеливания, специальные оптимизированные библиотеки, интерактивный отладчик и средства для анализа производительности. Приложения могут писаться с использованием MPI, ОрепМР, Co-array Fortran и Unified Parallel С (UPC). Другой производимый компьютер той же фирмы Cray ТЗЕ — масштабируемая матрично-параллельная система, состоит из процессорных элементов, которые включают в себя процессор, блок памяти и устройство сопряжения с сетью. Используются процессоры Alpha 21164 (EV5) с тактовой частотой до 675 МГц, пиковая производительность которых составляет 1,35 Тфлоп. Процессорный элемент располагает своей локальной памятью до 2 Гбайт. Системы ТЗЕ масштабируются до 2048 процессорных элементов, связанных сетью GigaRing с топологией трехмерного тора и двунаправленными каналами со скоростью обменов до 500 Мбайт/с в каждом направлении. Используется операционная система UNICOS/mk. Поддерживается явное параллельное программирование с помощью пакета Message Passing Toolkit (MPT) — реализации интерфейсов передачи сообщений MPI, МР1-2 и PVM, библиотека Shmem. Для Фортран-программ возможно также неявное распараллеливание в моделях CRAFT и HPF. Среда разработки включает также набор визуальных средств для анализа и отладки параллельных программ. Разработанный фирмой Cray суперкомпьютер Cray ХТЗ является матрично-параллельным компьютером, с вычислительными узлами, включающими в себя процессор AMD Opteron 2,4 ГГц, локальную память до 8 Гбайт со скоростью обмена 6,4 Гбайт/с., и канал HyperTransport к коммуникационному блоку Cray SeaStar. Коммуникационная технология Cray SeaStar позволяет объединить все вычислительные узлы Cray ХТЗ по топологии трехмерного тора. Коммуникационная плата Cray SeaStar включает в себя канал HyperTransport, Direct Memory Access (DMA), коммуникационный микропроцессор, interconnect router и управляющий порт. Interconnect router обеспечивает 6 высокоскоростных каналов связи с пиковой пропускной способностью каждого в двунаправленном режиме 7,6 Гбайт/с. Вычислительные узлы Cray ХТЗ компонуются в стойки (до 96 вычислительных узлов на стойку). Максимальная конфигурация содержит 320 стоек, с общим числом 30 508 процессоров, расположенных по трехмерной топологии 40*32*24, с объемом внутренней памяти 239 Тбайт. Потенциальная пиковая производительность при такой конфигурации 147 Система работает под управлением ОС UNICOS/lc, позволяющей эффективно объединять до 30000 вычислительных узлов. На компьютере устанавливаются компиляторы Fortran 77, 90, 95, C/C++, коммуникационные библиотеки MPI (с поддержкой стандарта MPI 2.0) и SHMEM, а также оптимизированные версии библиотек BLAS, FFTs, LAPACK, ScaLAPACK Для анализа производительности системы устанав - ливается система Cray Apprentice2 performance analysis tools. Суперкомпьютер SGI Altix3000 фирмы Silicon Graphics — модульная система с общей памятью, построенная на процессорах Intel Itanium II 1.3GHz/L5GHz. Вся система строится из модулей. Вычислительный компонент системы — модуль C-brick, состоящий из 2 -х блоков по 2 процессора, и памяти — до 16 Гбайт на C-brick.. Вся память системы глобально адресуема, аппаратно поддерживается когерентность кэшей. Модули системы соединены с помощью сети NUMAlink, построенной на собственных маршрутизаторах R-bricks. Используется доработанная операционная система Linux. NEC SX-5 фирмы NEC — параллельный векторный суперкомпьютер. Каждый узел системы является векторно-конвей- ерным компьютером, объединяющим до 16 индивидуальных векторных процессоров (каждый с пиковой векторной производительностью 8 Гфлоп и скалярной производительностью 500 Мфлоп). Объем памяти каждого узла — до 128 Гбайт, производительность обмена с памятью достигает 1 Тбайт/с. Система может включать до 128 узлов, обеспечивая совокупную пиковую производительность до 8 Тфлоп. В нашей стране также ведутся исследования в области разработки суперкомпьютеров, и их изготовление.
Первые управляющие вычислительные комплексы (УВК) имели архитектуру "общая шина", которая была заимствована из архитектуры компьютера. Для соединения нескольких функциональных устройств компьютера использовали общую шину (single bus), как показано на рис. 2.29. К этой шине подсоединяются все устройства компьютера. Поскольку за один раз по шине может пересылаться только одно слово данных, в каждый конкретный момент шину могут использовать только два устройства.
Дата добавления: 2015-04-29; Просмотров: 363; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |