Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Китайская платформа

 

Бытует мнение, что в Китае, как и в других странах, строятся лишь кластерные суперкомпьютеры и копируются устаревшие по архитектуре американские процессоры. Такое представление слишком упрощено, но даже если рассматривать только работы по кластерам и копируемым процессорам, то можно обнаружить ряд весьма перспективных решений и высокий профессионализм местных разработчиков.

Суперкопьютер Tianhe-1, созданный в Национальном университете оборонных технологий, содержит 6144 процессора Xeon Е54505540, 5120 графических процессоров ATI Radeon HD 4870 и имеет память 98 Тбайт. Вроде бы, ничего особенного, однако даже в этой разработке имеются интересные находки.

Xeon E5450/3 ГГц имеет четыре ядра, кэш-память второго уровня 12 Мбайт, но серверная плата с этими процессорами построена по обычной схеме с общей физической памятью, доступной через общую шину. Это оборудование эффективно при решении задач с хорошей пространственно-временной локализацией обращений к памяти. Xeon E5540/2,5 ГГц также имеет четыре ядра, но в каждом поддерживаются по два SMT-треда, и, по сути, это восьмитредовый процессор. Он еще имеет межкристальные каналы QuickPath, что позволяет на плате реализовать сеть и распределенную по сокетам процессоров физическую память, доступную через логически единое адресное пространство. Однако это более медленный процессор, чем E5450, да и кэш второго уровня у него меньше – 8 Mбайт. Зачем же была выбрана именно эта многосокетная плата?

Оказывается, она обладает свойством толерантности к задержкам обращений к памяти – эффективность работы приложения при определенных условиях на ней определяется уже не задержками, а темпом выполнения операций с памятью, за счет чего при распараллеливании растет реальная производительность даже для задач с нерегулярным доступом к памяти, например таких, как: расчеты на нерегулярных адаптивных сетках, боевые и гражданские информационно-управляющие комплексы, системы предотвращения террористических операций, обработка научной и разведывательной информации.

Свойство толерантности многосокетных плат и возможность подключения к ним графических ускорителей позволяет, в свою очередь, эффективно реализовать DAE-модель организации вычислений, когда в программе между асинхронными параллельными процессами разделяется доступ к данным и вычисления. При таком подходе E5540 может успешно выполнять работу с данными (передачу их в графическую память и обратно), а графические ускорители – выполнять роль вычислителя над удобно расположенными в своей быстрой памяти данными. Такая идея параллельных гетерогенных систем сегодня просматривается во многих перспективных суперкомпьютерах. Более того, кроме DAE-модели, толерантность позволяет на множестве многосокетных плат эмулировать работу с глобально адресуемой памятью, для чего можно применить библиотеки доступа к памяти удаленных узлов ARMCI (Aggregate Remote Memory Copy Interface) или GASNet (Global-Address Space Networking). Можно пойти дальше – начать опытное использование PGAS-языков (Partitioned global address space) UPC (Unified Parallel C) и CAF (Co-Array Fortran).

Итак, даже такой вроде бы небольшой нюанс в выборе процессоров для Tianhe-1 открывает возможности для решения задач с нерегулярным доступом к памяти (Data-Intensive Сomputing, DIC), требующих использования больших объемов общей памяти, для повышения продуктивности разработки параллельных программ за счет применения специальных библиотек и PGAS-языков.

Процессор Godson-1 появился в 2002 году в Институте компьютерных технологий академии наук Китая. Это 32-разрядный процессор MIPS, но с собственной суперскалярной структурой. Его характеристики: тактовая частота 200-266 МГц, технология 180 нм, производительность на SPECintfp2000 – 19/25.

Первый процессор семейства Godson-2 появился в 2003 году, и до 2007 года вышло еще четыре его 64-разрядных представителя: 2B, 2C, STLS2E и STLS2F. Последние два выпущены по технологии 90 нм компанией STMelectronics, соглашение о сотрудничестве с которой было заключено в 2004 году. В 2006 году объявлено о готовности к массовому выпуску модели STLS2E (Godson 2E): суперскалярная структура – четыре команды за такт; два функциональных устройства операций над числами с плавающей запятой (одно из них для SIMD-команд), два устройства целочисленной арифметики и одно устройство выполнения обращений к памяти; 47 млн транзисторов; тактовая частота 0,7-1 ГГц; рекордно низкая в индустрии потребляемая энергия – 4 Вт (для сравнения, IBM Cell BE, SPE потребляют свыше 110 Вт, Intel Xeon 7400 – 50-130 Вт); размер кэша первого уровня команд и данных – 64 Кбайт, а кэш второго уровня – 512 Кбайт; производительность на SPECintfp2000 – 503/503.

Первый процессор семейства Godson-3 (2008 год) имел уже четыре ядра, а в 2009 году последовал восьмиядерный процессор. Оба созданы по технологии 65 нм, имеют тактовую частоту 1-1,2 ГГц, 400 и 600 млн транзисторов, потребляемая энергия – 10 и 20 Вт. В этих изделиях введено дополнительно более 200 команд для аппаратно-программной эмуляции архитектуры x86. Имеется встроенный контроллер DDR2-памяти и ведутся разработки вариантов с разнородными ядрами (графические ускорители, специальные функции), варианта введения в ядра мультитредовости, добавления встроенного сетевого интерфейса.

Процессоры Godson применяются в персональных компьютерах и ноутбуках, а также суперкомпьютерах петафлопной производительности – узлы с процессорами Godson будут и в суперкомпьютере петафлопного уровня Dawning 6000A.

Таким образом, за очень короткий срок Китай создал плацдарм для развития своих стратегических суперкомпьютерных технологий – вышел на мировой уровень в разработке процессоров, эффективно использовав возможности работы с западноевропейскими партнерами. Развитие в сторону увеличения количества ядер и их специализации, введения мультитредовости, улучшения внешних интерфейсов – достаточно общие тенденции, однако низкое потребление энергии очень выгодно отличает Godson (сравнимые показатели имеют лишь специализированные процессоры ARM Cortex-A9 MPCore и Tilera TILE 64). Это может быть использовано для создания на его базе мультиядерных конфигураций (32-64 ядра) методами 3D-сборки, что будет уникальным достижением.

 

 

Год 2006: перелом

 

Суперкомпьютер Tianhe-1 и процессор Godson можно отнести к области обычных ИТ, они важны, но их аналоги общедоступны и ограничены по возможностям, поэтому не обеспечивают стратегического превосходства в ИТ над другими странами. Начиная с 2006 года в Китае стали развиваться специальные стратегические ИТ, позволяющие получить реальное преимущество как в научно-технической области, так и в обеспечении национальной безопасности – запущен проект 863/ИТ.

В национальном университете оборонных технологий была оценена общая ситуация в мире, научный потенциал страны в ИТ, очерчены цели и задачи проекта 863/ИТ, явно противопоставляемого аналогичным проектам США по программе DARPA HPCS, предусматривающей создание к 2010 году перспективных высокопродуктивных СКСН с реальной производительностью 1 PFLOPS, причем развиваемой на широком классе задач, а не только на специфическом Linpack, высокие показатели на котором позволяют попасть в престижный рейтинг TOP 500.

До недавнего времени процесс разработки суперкомпьютеров во всем мире напоминал гонку по созданию конкретных образцов высокопроизводительных систем с преодолением очередных уровней производительности, однако в современных условиях этого мало – сегодня преимущество имеет интеграция национальных стратегических ИТ, инфраструктуры и суперкомпьютерной индустрии, включающих науку и промышленность.

В 1976 году векторный суперкомпьютер Cray-1 первым преодолел уровень производительности 100 МFLOPS, а уже в начале 80-х годов был создан китайский суперкомпьютер Galaxy-1 с той же производительностью. После появления суперкомпьютера с разделяемой общей памятью Cray-XMP в Китае в конце 80-х годов был создан аналогичный суперкомпьютер Galaxy-2. Последовавшая с наступлением 90-х годов эра массивно-параллельных полузаказных суперкомпьютеров на базе коммерчески доступных процессоров началась с создания решений, содержащих до 1 тыс. процессоров, и системы такого типа были созданы в Китае: Dawning 1000, SHENWEI I, Galaxy-3.

В США терафлопный барьер был преодолен в 1996 году на системе ASCI RED, а в 2000 году был создан китайский массово-параллельный суперкомпьютер с аналогичной производительностью. Затем ИТ-индустрия увлеклась кластерными конфигурациями на базе коммерчески доступных процессоров, коммуникационных сетей и системного программного обеспечения. Знаковым достижением этого периода стало создание в июне 2006 года монстра от компании Dell – суперкомпьютера ThunderBird, который содержал до 9 тыс. процессоров и показал на тесте Linpack производительность 39 ТFLOPS. Работы по этому направлению были подхвачены и китайскими фирмами Dawning Information Industry, Lenova и др., важным событием стало создание еще в 2004 году системы Dawning 10 ТFLOPS, которая оказалась тогда на десятом месте в списке Тоp 500.

Гонка за пиковую производительность на тесте Linpack закончилась в 2003 году для США драматично – задуматься о новой системе ценностей и концепциях стратегических ИТ, нацеленных на поддержку национальных интересов, а не бизнеса конкретных компаний, заставило появление созданного по заказным технологиям японского векторного суперкомпьютера Earth Simulator. Этот суперкомпьютер превосходил американские кластерные монстры на тесте Linpack, но еще в большей степени он превосходил их при решении стратегически важных задач, именно это шокировало американскую ИТ-общественность и истеблишмент.

Создание Earth Simulator, во-первых, ознаменовало начало эры возрождения специальных стратегических ИТ – заказные технологии вновь стали востребованными и спустя три года появился американский массово-параллельный заказной суперкомпьютер IBM BlueGene/L с производительностью 280 ТFLOPS. Во-вторых, изменились способы оценки качества суперкомпьютеров, вместо теста Linpack перешли к применению комплексного набора тестов HPC Challenge и другим методикам (например, GUPS – Giga Updates Per Second), в которых использовалась многопараметрическая оценка, при этом особое внимание уделялось исследованию поведения суперкомпьютера в разных режимах пространственно-временной локализации обращений к памяти, особенно в режимах плохой локализации.

Общий вывод китайских специалистов состоит в том, что вызовом на этот раз стало не создание конкретного суперкомпьютера с очередной рекордной производительностью, а формирование новых концепций разработки перспективных СКСН с применением специальных стратегических ИТ, для появления которых нужны фундаментальные исследования. Разработка СКСН вновь стала наукой, и в этом основная причина появления проекта 863/ИТ.

В чем стратегия и тактика проекта 863? Авторы проекта выделяют шесть основных достижений, составляющих платформу проекта: закон Густафсона
о теоретической масштабируемости производительности параллельных компьютеров; создание библиотеки MPI; разработки в области процессоров общего назначения; опыт применения кластерных технологий, позволивший расширить круг пользователей высокопроизводительных средств; создание средств визуализации результатов вычислений; технологии построения глобальных сетей и grid-технологии.

Однако эти достижения – явления недавнего прошлого, а будущее, по мнению авторов проекта, будет определено другими факторами:

· создание больших заказных вычислительных систем с параллельной структурой на базе оригинальных вариантов всех компонентов, от функциональных устройств процессора до межузловой сети;

· разработка разных вариантов оригинальных масштабируемых операционных систем, в том числе и параллельных, которые для пользователя выглядят как единое целое (single system image);

· разработка распараллеливающих и высокооптимизирующих компиляторов, эффективно использующих методы машинно-зависимой оптимизации программ;

· разработка оригинальных средств отладки и профилирования параллельных программ;

· работы в области grid.

Кроме программы 863 в Китае действует еще программа фундаментальных исследований 973, ведутся программы развития ключевых технологий, развития информационной инфраструктуры, мегапроекты, курируемые Министерством науки и технологий КНР, Национальным университетом оборонных технологий и Институтом компьютерных технологий. Ставится задача вовлечения в эти работы как можно большего числа исследователей и разработчиков. Кстати, до наступления эры процессоров в области стратегических ИТ в США работало около 50 исследовательских коллективов, но потом их количество резко сократилось. Затем Министерству энергетики США было предписано активизировать исследования и разработки по стратегическим ИТ в университетской среде, результаты таких действий в настоящее время уже известны.

Еще одной особенностью китайского перелома 2006 года является активное использование возможностей международного сотрудничества в области ИТ
с США, Европой, Японией и странами Юго-Восточной Азии:

· предоставление на своей территории льготных условий работы филиалов зарубежных ИТ-компаний (Intel, Cray, NEC, Fujitsu и др.);

· обмен специалистами, участие китайских ученых в проектах ведущих американских центров (IBM Cyclops 64, eXMT PRAM, СASS-MT);

· финансирование совместных проектов (STMelectronics и т.п.);

· организация международных конференций на территории Китая в области важнейших направлений ИТ и прикладных проблем (International Conference on Theory and Applications of Satisfiability Testing, графовые базы данных).

 

 

<== предыдущая лекция | следующая лекция ==>
Стратегические суперкомпьютерные технологии Китая | Первые результаты
Поделиться с друзьями:


Дата добавления: 2014-01-04; Просмотров: 640; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.033 сек.