Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Двухъядерный (dual-core) процессор Power 4




Многоядерные процессоры компании IBM

В 2001 г. корпорация IBM (http://www.ibm.com/) разработала свой первый универсальный двухъядерный (dual-core) процессор Power 4, предназначенный для серверов IBM eServer.

Устройство Power 4 было уникально для своего времени тем, что в нем в одном корпусе содержалось два 64-разрядных микропроцессора.

Архитектуру кристалла Power 4 отличало несколько современных решений:

 суперскалярная структура,

 внеочередное исполнение команд,

 большая кэш-память на кристалле,

 специализированный порт для основной памяти,

 высокоскоростные соединения для объединения микропроцессоров в системы с архитектурой распределенной разделяемой памяти.

 

Каждый процессор Power 4 имел два конвейерных блока для работы с 64- разрядными операндами с плавающей точкой, выбирающих на исполнение по пять команд каждый, и два блока для работы с памятью. Процессоры содержали раздельную кэш-память команд и данных 1-го уровня емкостью по 64 Кбайт каждая. Кроме того, имелась разделяемая (общая) кэш-память 2-го уровня на кристалле (емкостью 1,4 Мбайт) и внешняя кэш-память 3-го уровня (емкостью 32 Мбайт).

Наличие кэш-памяти 2-го уровня, разделяемой двумя процессорами кристалла, а также внешними процессорами других кристаллов через магистрали шириной 128 разрядов, работающие на тактовой частоте более 500 МГц (что обеспечивает пропускную способность свыше 10 Гбайт/с) стало одной из отличительных особенностей Power 4.

Физически кэш-память 2-го уровня емкостью около 1,4 Мбайт состояла из нескольких одинаковых блоков, доступ к которым выполнялся через коммутатор с пропускной способностью на уровне 100 Гбайт/с. Протокол когерентности обеспечивал размещение данных в том блоке кэш-памяти, который использовался для размещения данных последним. Порт кристалла Power 4, предназначенный для подключения кэш-памяти 3-го уровня емкостью до 32 Мбайт, имел 128 разрядов для каждого из двух направлений пересылки данных. Порт функционировал не на полной тактовой частоте процессоров кристалла, но, тем не менее, при передаче обеспечивал пропускную способность на уровне 13-14 Гбайт/с. Теги для адресации кэш-памяти 3-го уровня были расположены внутри кристалла, что ускоряло реализацию протокола когерентности. Скорость передачи данных между кэш-памятью 3-го уровня и основной памятью могла достигать 12,8 Гбайт/с.

Каждый сдвоенный процессор Power 4 был упакован в керамический мультипроцессорный модуль (размером 4,5х4,5 дюйма) вместе с тремя другими кристаллами. Эта базовая строительная единица называлась MCM (MultiChip Module). Такой модуль, содержащий четыре микросхемы Power 4, объединял фактически восемь процессоров. Многослойный керамический корпус модуля MCM содержал магистрали, соединяющие микросхемы между собой, а также с модулями кэш-памяти и высокоскоростным коммутатором для связи с удаленными процессорами. Четыре микросхемы Power4, образующие восьмипроцессорную конфигурацию, были расположены в модуле под углом 90° друг относительно друга, что позволяло минимизировать длину шин, соединяющих микросхемы между собой, что важно при работе на высоких тактовых частотах. Шины расширения связывали между собой и модули МСМ. В этих шинах использовалась уникальная технология волновой конвейеризации (wave pipelining), обеспечивающая низкие величины задержек.

Стоит отметить, что наряду с параллелизмом на уровне команд процессор Power 4 использовал и параллелизм на уровне потоков (тредов). Базовая многопоточность использовалась еще в процессорах PowerPC RS IV (S-Star) - но в этом процессоре в каждый момент времени выполнялся только один поток команд. Если при выполнении команды одного потока возникала значительная задержка (например, в кэш- памяти отсутствовали необходимые данные), то процессор переключался на другой поток, что уменьшало его простаивание. Однако оба потока совместно использовали многие системные ресурсы (например, архитектурные регистры), поэтому на переключение между потоками тратилось несколько тактов.

Динамическое выявление параллелизма в Power 4 позволило предотвращать простои процессора при трудно выявляемых статически ситуациях, например, промахе при обращении к кэш-памяти.

Компания IBM первой интегрировала в кристалл два процессорных ядра — в технологии Power 4. При создании этой архитектуры она ориентировалась, прежде всего, на рынок высокопроизводительных серверов и суперкомпьютеров, поддерживающих 32-процессорные симметричные многопроцессорные (SMP) - системы.

Микропроцессор Power 4 создавался для работы как с коммерческими (серверными), так и с научно-техническими приложениями. Разработка Power велась на базе RISC-архитектуры (Reduced Instructions Set Computer).

Предусматривается фиксирование длины команд, а также использование универсальных регистров. Команды упрощаются для того, чтобы они могли выполняться за один такт. Понятно, что эффективность вычислений повышается при оптимизации конвейера команд. В процессе создания Power разработчики решили минимизировать не только время каждого цикла, но и полное время, необходимое для выполнения конкретной задачи, для чего была внедрена технология суперскалярной обработки данных.

Вспомним, что каждое из ядер процессора Power 4 обладает собственным кэш первого уровня для данных и инструкций (соответственно LD 1 и LI 1) и общим кэш второго уровня (L2). Кэш память управляется тремя раздельными, автономно работающими контроллерами, которые подключаются к процессорным ядрам через коммутатор (Core Interface Unit - CIU). За такт контроллеры могут выдавать до 32 байт данных. Общий кэш для нескольких ядер хорошо сказывается на производительности процессора благодаря более быстрому доступу к совместно используемой информации, однако при таком способе организации велика вероятность возникновения конфликтов, многоступенчатая же организация кэш позволяет использовать его наиболее эффективно.

Очевидно, что скорость передачи данных между процессором и памятью существенно влияет на потенциал многоядерных устройств. Коммуникация каждого из Power 4 осуществляется коммутатором CIU посредством двух раздельных 256-битовых шин для выборки инструкций и загрузки данных, а также отдельной 64-битовой шины для сохранения результатов.

Для поддержки когерентности в кэш - памяти второго уровня L2 применена расширенная версия известного протокола MESI с длиной строки 128 байт, а в L3 использована модель с пятью состояниями когерентности (поддержка осуществляется на уровне 128-байтных секторов).

Отдельный функциональный блок, так называемый контроллер матрицы, отвечает за обмен данными между контроллерами кэш-памяти второго и третьего уровней и за коммуникационные функции архитектуры Power 4. В процессоре широко применяются механизмы прогнозирования ветвлений. Адресное пространство составляет 512 Гбайт.

Отметим, что протокол MESI применяет и AMD, точнее, доработанный MESI-MOESI. В нем процессоры могут использовать данные кэш-памяти друг друга, для чего во время чтения информации происходит проверка кэш-памяти соседей и при обнаружении необходимых сведений считывание происходит прямо оттуда. Причем эти данные в оперативной памяти не сохраняются, а владелец информации делает пометку напротив обновленной строки. Любое изменение строки приводит к устареванию аналогичных строк в кэш других процессоров, а в случае вытеснения обновленных строк (Owner-строк) они записываются в оперативную память.

При разработке процессора Power 4 была поставлена задача оптимизации SMP- конфигурации сервера. Для того чтобы сервер на базе Power 4 был готов к работе в многозадачных средах с высокими требованиями к пропускной способности, и были упакованы в один модуль четыре двуядерных процессора, образуя восьмипроцессорную SMP систему. Для соединения процессоров между собой вместо центрального коммутатора используется множество независимых шин c топологией типа "точка—точка".




Поделиться с друзьями:


Дата добавления: 2014-01-07; Просмотров: 662; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.057 сек.