Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

PDB-файлы (база данных по белкам)




M END

17. 2 7 1 6 0 0 0

16. 1 6 1 0 0 0 0

15. 1 5 1 1 0 0 0

14. 1 4 1 0 0 0 0

13. 2 3 2 0 0 0 0

12. 1 2 1 0 0 0 0

H 0 0 0 0 0 0 0 0 0 0 0 0

H 0 0 0 0 0 0 0 0 0 0 0 0

O 0 0 0 0 0 0 0 0 0 0 0 0

H 0 0 0 0 0 0 0 0 0 0 0 0

H 0 0 0 0 0 0 0 0 0 0 0 0

C 0 0 0 0 0 0 0 0 0 0 0 0

C 0 0 0 0 0 0 0 0 0 0 0 0

V2000

3.

ISIS- 10031016312D

NSC7594 acetaldehyde

 

Каждый мол-файл состоит из двух частей: строки параметров – так называемой «шапки», специфичной для мол-файлов (строки 1-3) и продолжающейся таблицы (строки 4-18), которые являются фундаментом для такого вида форматов.

Первая строка «шапки» содержит информацию о названии молекулы. Если название по каким-либо причинам отсутствует, то эта строка остается незаполненной. Например, для этаналя указаны два названия: его идентификационный номер из NCI базы данных (NSC 7594) и обычное название соединения.

Вторая строка имеет более строгий формат и содержит общую информацию об имени пользователя; программы, которая используется для получения данного файла, и о дате и времени, когда этот файл был создан. Информация о дате и времени формируется из ряда двухзначных значений, представляющих месяц (10 в приведенном примере), дату (03), год (10), час (16) и минуты (31) соответственно. Также указываются атомные координаты (2D или 3D).

Третья строка «шапки» обычно остается пустой или содержит комментарии.

Строки 4-18 образуют продолжающуюся таблицу, содержащую описание атомов, составляющих данное соединение, которые могут быть полностью или частично соединены связями. Такой набор атомов может представлять молекулу, фрагмент молекулы, субструктуры и т.д. В случае мол-файла блок продолжающейся таблицы описывает одну молекулу.

Первая линия продолжающейся таблицы называется линия подсчета (расчета) и определяет из какого количества атомов построена данная молекула (7), какое количество связей имеется в данном соединении (6), является ли молекула хиральной (1- хиральна, 0 – нет) и т.д. Далее может идти перечисление каких-либо других свойств. Последняя позиция в этой строке указывает версию формата продолжающейся таблицы, используемого в данном файле. В приведенном примере это версия V2000. Также существует более новая расширенная версия V3000.

Все семь атомов, которые указаны в строке подсчета, описываются подробно в атомном блоке ( строки5-11). Каждый атом представлен в виде одного ряда, который определяет декартовы координаты, атомный символ, отклонение от атомной массы основного изотопа по сравнению с периодической таблицей, заряд, стереохимические особенности атома, число отдельно изображенных атомов водорода, нестандартная валентность и ряд других свойств. Декартовые координаты определяют модель молекулы (2D или 3D), как указано во второй строке файла. 2D модели могут быть получены, например, при помощи программы ISIS/DRAW. 3D структурные данные получаются в результате экспериментов или теоретических вычислений (например, программа CORINA). 3D координаты можно увидеть в третьей колонке атомного блока (z-координаты). Если эта колонка содержит только значения нуля, значит молфайл содержит только 2D координаты.

После атомного блока идет блок связей ( строки12-17). Каждая линия этого блока определяет какие два атома связаны между собой, мультиплетность связи и стерео конфигурацию связи. Первая колонка указывает первый атом, вторая колонка – атом с которым связан первый атом, в третьей колонке указан тип связи (одинарная – 1, двойная – 2, тройная – 3), в четвертой – стереохимические особенности связи.

Одинарная связь содержит значение 0, если нет стерео специфичности (обычная связь, в плоскости), 1 – над плоскостью, 2 – за плоскостью, 4 – вверх, 5 – направление неизвестно, 6 – вниз. Цис/транс или E/Z конфигурация двойной связи определяется x,y,z координатами атомного блока, если значение 0. Если указано значение 3, значит двойная связь либо цис, либо транс.

Последняя часть файла, представленного здесь, – это блок свойств, который может содержать разнообразные свойства. Однако в большинстве случаев этот блок остается пустым, за исключением последней строки (строка 18).

В качестве более сложного примера можно привести мол-файл фенилаланина.

 

phenylalanine

-ISIS- 10030708132D

Комментарии

12 12 0 0 0 0 0 0 0 0999 V2000

-0.7764 -2.3791 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0

-0.7776 -3.2065 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0

-0.0628 -3.6194 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0

0.6537 -3.2060 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0

0.6508 -2.3755 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0

-0.0646 -1.9664 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0

1.3637 -1.9603 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0

2.0797 -2.3701 0.0000 C 0 0 1 0 0 0 0 0 0 0 0 0

2.7927 -1.9549 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0

2.0829 -3.1951 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0

3.5087 -2.3647 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0

2.7895 -1.1299 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0

6 1 1 0 0 0 0

1 2 2 0 0 0 0

5 7 1 0 0 0 0

3 4 2 0 0 0 0

7 8 1 0 0 0 0

8 9 1 0 0 0 0

4 5 1 0 0 0 0

8 10 1 1 0 0 0

2 3 1 0 0 0 0

9 11 1 0 0 0 0

5 6 2 0 0 0 0

9 12 2 0 0 0 0

M END

PDB – это база для хранения данных по 3D структуре больших биологических молекул, таких как белки и нуклеиновые кислоты. Данные получают при помощи рентгеноструктурного анализа или спектроскопии ЯМР; их достоверность подтверждают биологи и биохимики по всему миру.

PDB является ключевым источником в области структурной биологии (структурная геномика).

Формат базы данных по белкам обычно используется для белков, но он может также использоваться для других типов молекул. Формат фиксированной ширины колонки имеет встроенное максимальное количество атомов, остатков, и цепей; это в настоящее время приводит к расщеплению очень больших структур, таких как рибосомы на мультиплетные файлы (например, 3I1M, 3I1N, 3I1O, 3I1P). Некоторые файлы PDB содержат дополнительный раздел, описывающую возможность соединения атома и его положение. Поскольку эти файлы иногда используются, чтобы описать макромолекулярные скопления или молекулы, представленные в определенном растворителе, они могут быть очень большими и часто приходится сжимать. Некоторые инструментарии, такие как Jmol и KiNG, могут прочитать файлы PDB в формате gzipped. PDB поддерживает технические требования формата файла PDB и его альтернативы XML, PDBML. Было довольно существенное изменение в спецификации формата PDB (к версии 3.0) в августе 2007, и исправление многих проблем файла в существующей базе данных. Типичное расширение файла для файла PDB- .pdb, хотя некоторые более старые файлы используют .ent или .brk.

Experimental Method Proteins Nucleic Acids Protein/Nucleic Acid complexes Other Total
X-ray diffraction          
NMR          
Electron microscopy          
Hybrid          
Other          
Total:          

 

Эти данные показывают, что строение большинства структур определяется рентгеноструктурным анализом, но приблизительно 15 % структур в настоящее время определяются NMR белка, и некоторые даже определены крио-электронной микроскопией.

Значение файлов структурного фактора состоит в том, что, для структур PDB, определенных рентгеноструктурным анализом, у которых есть файл структуры, может быть рассмотрена электронная карта плотности. Данные таких структур хранятся на "электронном сервере плотности", где могут быть рассмотрены электронные карты.




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 2090; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.008 сек.