Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Надежность и доступность

Все базовые аппаратные компоненты и пути, их соединяющие, в сервере Superdome 2 дублированы, а все основные аппаратные компоненты допускают возможность горячей замены по схеме OLARD (OnLine Addition, Replacement, Deletion). Повышение уровня доступности достигается благодаря применению системы разбиения на разделы, а также средств виртуализации. В таблице 1 представлена часть наиболее важных и интересных аппаратных особенностей основных подсистем сервера Superdome 2, способствующих повышению отказоустойчивости.

Таблица 1. Некоторые особенности сервера Superdome 2 по обеспечению отказоустойчивости и доступности

Подсистема Особенности
Память ECC; SDDC; DDDC;scrubbing ОП; отказоустойчивость каналов (сбросы и повтор операций); дифференциация между CRC-ошибкой канала SMI и ECC-сбоем микросхем памяти
Процессоры Обнаружение и коррекция ошибок кэша; самолечение кэшей L2, L3; применение в технологии изготовления специальных защелок для борьбы с мягкими ошибками (например, от космических лучей); защита логики ядер по четности и кодами ЕСС; продвинутые средства структуры обработки ошибок МСА; восстановление от МСА-ошибок на уровне HP UX; обнаружение и коррекция ошибок путей QPI (с применением CRC, возможности повтора операции и др.)
Каналы (ввода/вывода, ячеек и межсоединения) Повторение операции на канальном уровне; уменьшение эффективной ширины сбоящего канала; горячая замена XFM; подсоединение IOX через XFM
Коммутатор Избыточные каналы к ячейкам; явная поддержка аппаратных разделов
Слоты I/O Обнаружение и коррекция ошибок; изоляция сбоев PCI в одном слоте; улучшенное восстановление после ошибок I/O; поддержание многих путей; возможности OLARD для плат PCI-E.
Набор микросхем Обнаружение и коррекция ошибок внутренних путей данных; применение специальных защелок против «мягких» ошибок; запасные строки кэша в L4
Поддержка разделов и Инфраструктура системы nPartitions (аппаратная и программная изоляция разделов); OLARD для ячеек; избыточные тактовые генераторы с горячей заменой; полностью избыточные пути распространения синхросигналов; управление автоматическим обходом ошибок и горячей заменой (OA, GPSM); избыточность и автоматический обход ошибок в межсоединении с пакетным протоколом; возможности ремонта без выключения нескольких разделов; избыточность источников питания (2N); избыточность вентиляторов; пассивные системные платы; средства Analysis Engine

 

В подсистеме памяти применяются не только коды ECC, но и технология SDDC (Single Device Data Correction, известна также под названием Chipkill), позволяющая обойти сбои одной микросхемы в DIMM и DDDC (Double Device Data Correction), а также корректировать сбои сразу в двух последовательных микросхемах. Для памяти применяется технология scrubbing тестирования и исправления ошибок одновременно с работой приложений.

Эти и ряд других аппаратных усовершенствований в сервере Superdome 2 позволили в 17 раз уменьшить вероятность поломки модулей DIMM и минимизировать риск повреждения данных. Кроме того, в самих процессорах возросла доля аппаратуры, контролируемой на наличие ошибок, — средствами контроля покрывается весь кэш и 70% возможных источников сбоев ядер. По разным оценкам, надежность Tukwilla вдвое выше, чем у массовых процессоров.

Применение отказоустойчивых каналов в ячейках, подсистеме ввода/вывода и системном коммутаторе означает высокую доступность всех аппаратных разделов сервера Superdome 2. Cервисное обслуживание каналов не требует остановки системы, а удаление большинства компонентов, потенциально способных вызвать аппаратных ошибки подсистемы ввода/вывода, позволило поднять время доступности сервера Superdome 2 в 20-25 раз по сравнению с предыдущей модификацией. Отказоустойчивость повышена и благодаря возможностям онлайн-ремонта компонентов подсистемы ввода/вывода.

Что касается управления сервера Superdome 2, то следует отметить перенос обнаружения и регистрации аппаратных ошибок с уровня операционной системы на встроенное программное обеспечение (firmware) благодаря применению средств диагностики Analysis Engine, позволяющее анализировать сбои, даже если нельзя загрузить раздел. Единой точкой входа для сервисного обслуживания сервера Superdome 2 являются (задублированные) модули средств управления OA. Вся система и все iLO ячеек управляются через OA, которые имеют доступ и к средствам конфигурирования разделов. Работа с OA может осуществляться через командную строку или Web-интерфейс, причем к ОA можно обратиться, даже если сервер не работает. В качестве некоторого более примитивного аналога такого подхода можно упомянуть платы IPMI в серверах стандартной архитектуры.

Cами модули OA, как и задублированные модули GPSM (Global Partitions Service Modules), содержащие, в частности, тактовые генераторы и средства мониторинга блоков питания и вентиляторов верхней половины узлов, допускают возможность горячей замены.

 

 

<== предыдущая лекция | следующая лекция ==>
Структура сервера | Конфигурации и производительность
Поделиться с друзьями:


Дата добавления: 2014-01-04; Просмотров: 417; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.013 сек.