Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Структура процессорного ядра Sandy Bridge

Если сравнивать строение ядра Sandy Bridge с первыми представителями МА Core, то изменения заметны во всём. Если же сравнить с «ближайшим родственником», ядром Nehalem, число действительно серьезных различий будет значительно меньшим.

Отличия Sandy Bridge настолько сущест-ве нны, что они обес-печили увеличение ключевого показате-ля «производитель-ность / энергопотреб-ление» в размерах, опережающих тради-ционный линейный прирост.

 

Кроме того, процессорная МА Sandy Bridge гораздо лучше предшественников соответствует требованиям, предъявляемым приложениями к современным системам.

 

Кроме

• увеличенной производительности и

• улучшенных вычислений с плавающей запятой,

она

• поддерживает расширенный набор векторных команд Intel AVX (Advanced Vector Extensions), что важно для современных ресурсоёмких приложений;

• обладает аппаратным модулем ускоренной обработки инструкций шифрования AES (Advanced Encryption Standard) и алгоритмов шифрования RSA и SHA;

а также

• содержит ряд оптимизаций для более эффективной виртуализации и исполнения серверных приложений.


2.1.Элементы входных цепей конвейера

Блок упреждающей выборки команд ядра предназначен для обеспечения бесперебойной выборки и предварительного декодирования инструкций x86, для последую-щего их декодирования в операции микрокода. Т.о. из инструкций x86 разной длины получается упорядоченный поток равномерных операций - «микроопераций» (μops), для последующей обработки с изменением последо-вательности (out-of-order).

Процесс предварите-льного декодирова-ния формирует оче-редь из инструкций x86 (до 6 за такт), загружаемых из кеша L1 в промежуточный буфер для последую-щей передачи на декодирование.

Кеш инструкций L1 ядра Sandy Bridge размером 32 Кбайт обладает восьмиканальной (8-way) ассоциативностью. После упреж-дающей выборки и предварительного декодирования команды x86 подаются на декодеры, которые выдают на выходе микрооперации фиксированной длины для дальнейшей обработки с изменением последовательности (out-of-order). Три из 4-х декодеров обрабатыва-ют простые команды и каждый выдаёт по одной микрооперации на выходе, а 4-й декодер обрабатывает сложные инструкции и выдаёт до 4-х микроопераций. Кроме того, микропрограммные инструкции раз-мером более 4-х микроопераций разбиваются на блоки по 4 микрооперации. По аналогии с предыдущими МП, блоки декоди-рования Sandy Bridge поддерживают как микро-слияния (Micro Fusion), объединяющие несколько инструкций в ряд одиночных микроопераций, и макро-слияния (Macro Fusion), объединяющие пары инструкций в одну.

В любом случае, деко-деры выдают на выходе не более четырех микроопераций за такт.

► Одним из нововведений МА Sandy Bridge является кеш декодированных микроопераций (кеш инструкций L0). Благодаря структурной организации формата 32х8 с возможностью хранения 6-и микроопераций в линии, этот кеш вмещает чуть более полутора тысяч микроопераций. Он кеширует на выходе декодеров все предварительно декодированные микрооперации. Как только поступает на обработку новая инструкция, он производит сверку с кешем L0, и в случае обнаружения совпадений, загрузка конвейера по 4 микрооперации за такт в обход декодеров осуществляется из кеша L0. Незадействованные цепи декодеров отключаются от питания.

В противном случае, когда кеш декодированных операций оказывается невостребованным, продолжается обычная работа по выборке и декодированию команд, а кеш декодированных операций переводится в режим экономии энергии.

Кеш L0 можно считать отдельной и очень быстрой частью кеша L1, в который он интегрирован. При работе с большинством приложений, вероятность удачного «по-падания» в кеш велика и может достигать 80%.

Ничуть не меньше изменился блок предсказания ветвлений (branch prediction) - в буфер предсказания результата ветвления BTB (branch target buffer) чипа Sandy Bridge вмещает в два раза больше адресов результатов ветвления и вдвое большую историю комбинаций команд, нежели аналогичный буфер Nehalem.

Кроме того, увеличены размеры области хране-ния истории ветвлений, в том числе предсказанных и выполненных.

 

Так, удалось снизить количество неудачных предсказаний ветвлений, что положительно отозвалось как на увеличении производительности за счёт уменьшения времени вынужденного простоя для сброса конвейера с десятками обработанных впустую инструкций, так и на потреблении энергии, затрачиваемой зря на обработку неудачных ветвлений.

<== предыдущая лекция | следующая лекция ==>
L3 - кеш-память последнего уровня (LLC) | Формирование потока команд с изменением последовательности
Поделиться с друзьями:


Дата добавления: 2014-01-15; Просмотров: 495; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.009 сек.