Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Information service




Storage element

Computing element

Безопасность

Структура ППО gLite, основные сервисы. Обеспечение безопасности. Запуск грид-задания.

Интегрированный набор промежуточного ПО грид, разрабатываемый в Европе 2004-2010: проект Enabling Grids for E-sciencE (EGEE) 2010-...: проект European Middleware Initiative (EMI)

Интеграция, реинжиниринг и «упаковка» существующего ПО грид (Globus Toolkit, Condor...)

Разработка новых компонентов

Программная инфраструктура для «24/7 production-ready»

грид-систем (EGI, LHC Computing Grid)

Open source (Apache License, Version 2.0)

gLite is a middleware computer software project for grid computing used by the CERN LHC experiments and other scientific domains. It was implemented by collaborative efforts of more than 80 people in 12 different academic and industrial research centers in Europe. gLite provides a framework for building applications tapping into distributed computing and storage resources across the Internet. The gLite services were adopted by more than 250 computing centres and used by more than 15000 researchers in Europe and around the world.

Аутентификация пользователей и сервисов с помощью цифровых сертификатов формата X.509 Выдаются Удостоверяющими центрами (Certificate Authority, CA)

Использование прокси-сертификатов с ограниченным временем действия:

Могут быть делегированы сервисам грид

Могут включать дополнительные атрибуты (например, принадлежность к ВО)

Могут храниться внешним сервисом (MyProxy)

Могут продлеваться

A Computing Element (CE), in Grid terminology, is some set of computing resources localized at a site (i.e. a cluster, a computing farm). A CE includes a Grid Gate (GG)1, which acts as a generic interface to the cluster; a Local Resource Management System (LRMS) (sometimes called batch system), and the cluster itself, a collection of Worker Nodes (WNs), the nodes where the jobs are run.

There are two CE implementations in gLite 3.1: the LCG CE, developed by EDG and used in LCG-22, and the gLite CE, developed by EGEE. Sites can choose what to install, and some of them provide both types. The GG is responsible for accepting jobs and dispatching them for execution on the WNs via the LRMS.

A Storage Element (SE) provides uniform access to data storage resources. The Storage Element may control simple disk servers, large disk arrays or tape-based Mass Storage Systems (MSS). Most WLCG/EGEE sites provide at least one SE.

The Information Service (IS) provides information about the WLCG/EGEE Grid resources and their status. This information is essential for the operation of the whole Grid, as it is via the IS that resources are discovered. The published information is also used for monitoring and accounting purposes.

Workload management (Запуск грид-задания)

The purpose of the Workload Management System (WMS) is to accept user jobs, to assign them to the most appropriate Computing Element, to record their status and retrieve their output. The Resource Broker (RB) is the machine where the WMS services run.

Jobs to be submitted are described using the Job Description Language (JDL), which specifies, for example, which executable to run and its parameters, files to be moved to and from the Worker Node on which the job is run, input Grid files needed, and any requirements on the CE and the Worker Node.

The choice of CE to which the job is sent is made in a process called match-making, which first selects, among all available CEs, those which fulfill the requirements expressed by the user and which are close to specified input Grid files. It then chooses the CE with the highest rank, a quantity derived from the CE status information which expresses the goodness of a CE (typically a function of the numbers of running and queued jobs).

The RB locates the Grid input files specified in the job description using a service called the Data Location Interface (DLI), which provides a generic interface to a file catalogue. In this way, the Resource Broker can talk to file catalogues other than LFC (provided that they have a DLI interface).

The most recent implementation of the WMS from EGEE allows not only the submission of single jobs, but also collections of jobs (possibly with dependencies between them) in a much more efficient way then the old LCG-2 WMS, and has many other new options.

Finally, the Logging and Bookkeeping service (LB) tracks jobs managed by the WMS. It collects events from many WMS components and records the status and history of the job.

21. Феномен Big Data, проблемы хранения и обработки больших объемов данных. Модель программирования MapReduce. Инвертированный индекс. Параллельная обработка и агрегация результатов. Назначение, преимущества и недостатки MapReduce. (http://www.slideshare.net/yandex/mapreduce-12321523# - у кого есть фейсбуки и вконтакте можно отсюда скачать про это хорошую презентацию).

Большие данные (англ. Big Data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop. В качестве определяющих характеристик для больших данных отмечают «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных).

Введение термина «большие данные» относят к Клиффорду Линчу, редактору журнала Nature, подготовившему к 3 сентября 2008 года специальный номера журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?»

Коммерческие приложения: десятки миллиардов страниц, сотни терабайт текста, Google MapReduce: 100 TB данных в день (2004), 20 PB (2008), Facebook - петабайты пользовательских данных (15 TB/день), Поведенческие данные пользователей (business intelligence).

Научные приложения. Физика высоких энергий Большой Адронный Коллайдер - 15 PB/год, Large Synoptic Survey Telescope (2015) - 1.28 PB/год, Секвенирование ДНК, European Bioinformatics Institute - 5 PB (2009).

 

Наблюдения

Мы можем хранить все больше данных, но латентность и пропускная способность жестких дисков не

успевают за ростом объема.

 

Современные задачи намного превышают возможности одной машины. Требуются кластеры из сотен и тысяч машин.

Стратегия scale out выгоднее стратегии scale up.

Данные нельзя разместить полностью в памяти,приходится обращаться к диску. Последовательные чтение и запись данных при обработке гораздо эффективнее случайного доступа.

Отказы становятся нормой. 10K серверов с MTBF=1000d -> 10 отказов в день. Необходимы автоматическая обработка и восстановление после отказов.

Традиционные HPC-системы имеют отдельные системы хранения данных, а большие объемы данных эффективнее обрабатывать там же, где они хранятся.

Разрабатывать приложения для подобных систем на низком уровне очень сложно. Требуются высокоуровневые модели программирования, скрывающие детали системного уровня. Требуются универсальные среды выполнения, масштабируемые и проверенные на корректность.

Программная модель MapReduce была придумана несколько лет тому назад в компании Google и там же была выполнена первая реализация этой модели на основе распределенной файловой системы той же компании GFS (Google File System). Эта реализация активно используется в программных продуктах самой Google, но является сугубо проприетарной и недоступна для использования вне Google.




Поделиться с друзьями:


Дата добавления: 2015-01-03; Просмотров: 430; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.012 сек.