Студопедия

КАТЕГОРИИ:


Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748)

Правила SMILES




SMILES (Simplified Molecular Input Line Entry System)

Правила ROSDAL.

1. Вся структура нумеруется;

2. Символы атомов пишутся сразу после номера (символ углерода С не пишется);

3. Водороды не обозначается или нумеруются наравне со всеми атомами;

4. Одинарные связи обозначаются , двойные =, тройные #,

другие?;

5. Разветвления перечисляются через запятые.

Рассмотрим алгоритм кодирования в формате ROSDAL на примере молекулы фенилаланина.

После того как структура пронумерована начинаем запись кода молекулы, с учетом кратности связи. Сначала записываем бензольное кольцо, начиная с углерода под номером 1, затем через запятую все оставшиеся звенья молекулы.: 1=2-3=4-5=6-1,5-7-8-9=12O,8-10N,9-11O.

1N-2-4-5N=6-7S-8=4, 2=3O, 6-8N-10N=11-12, 11-13.

Данная кодировка была создана в 1986.

1. Все атомы пишутся символами.

2. Водороды не обозначается.

3. Ароматические атомы указываются маленькими буквами.

4. Одинарные связи не отмечаются, двойные обозначаются =, тройные #.

5. Для разветвления используются скобки.

6. Кольца нумеруются цифрами – цифра ставится у тех атомов, которые образуют кольцо.

C1CCCCC1 циклогексан
c1ccccc1 бензол

7. Цис- танс изомерия относительно двойной связи / или \ в зависимости от направления.

8. Стереоизомерия (энантиомеры) обозначают @ (влево от смотрящего) или @@ (вправо от смотрящего).

NC(C)(F)C(=O)O Без указания хиральности (рацемат)

 

N[C@](C)(F)C(=O)O Хиральное соединение

Атомы

Все неводородные атомы пишутся в квадратных скобках [Au] - слева от элемента записывают изотоп, справа количество водорода у элемента в соединении)

[S] сера
[Au] золото

Элементы, которые входят в состав органических веществ (B, C, N, O, P, S, F, Cl, Br, I), можно писать без квадратных скобок. Водороды к ним добавляются согласно валентности.

C метан (CH4)
P фосфин (PH3)
N аммиак (NH3)
S сероводород (H2S)
O вода (H2O)
Cl хлороводород (HCl)

Заряд у атома (+ или -) пишется в квадратных скобках.

[H+] Протон
[Fe+2] Катион железа (II)
[OH-] Гидроксид анион
[Fe++] Катион железа (II)
[OH3+] Гидроксоний катион
[NH4+] Аммоний-катион

 

Например, запись SMILES для воды будет выглядеть как O, для этанола — CCO. Гидроксильный анионзаписывается [OH-], а для иона железа (III) запись [Fe+++] можно заменить на [Fe+3].

Связи

Одинарная химическая связь может быть записана с использованием символа между атомами, соединёнными связью, но на практике это не применяется, символ дефиса опускают. Обозначение ароматической связи двоеточие (:) обычно тоже опускают. Двойная связь обозначается с помощью знака равенства, например, двуокись углерода записывается в виде O=C=O. Тройная связь обозначается с помощью октоторпа (#), например, синильная кислота записывается как C#N.

 

CC Этан (CH3CH3)
C=O формальдегид (CH2O)
C=C Этилен (CH2=CH2)
С#C Ацетилен (HC≡СH)
O=C=O диоксид углерода (CO2)
COC Диметиловый эфир (CH3OCH3)
C#N синильная кислота (HCN)
O=CO муравьиная кислота (HCOOH)
CCO этанол (CH3CH2OH)
[H][H] молекулярный водород (H2)

Ионные связи отмечают как отдельные молекулы через точку

[Na+].[Cl-] Хлорид натрия (NaCl)

СС[O-].[Na+] Этилат натрия (C2H5ONa)

Разветвления

Боковые цепи отделяют от основной цепи скобками.

Боковые цепи молекулы заключаются в круглые скобки. Например, пропионовая кислота записывается как CCC(=O)O. Каноническая форма записи трифторметана выглядит как C(F)(F)F, однако такая запись неудобна для чтения из-за своей перегруженности скобками, поэтому ту же молекулу можно записать в неканонической форме как FC(F)F.

трифторметан FC(F)F

ССN(CC)CC

 

СC(C)C(=O)O

 

С=CC(CCC)C(C(C)C)CCC

 

Запись циклических структур

 
 
 
C1CCCCC1
Атомы, находящиеся на концах «разорванной» при построении основной линии связи, обозначаются одним и тем же номером. Например, циклогексан записывается как С1ССССС1.

 

В зависимости от того, какую линию связей выбрать за основную, может существовать несколько вариантов записи SMILES-кода при этом они имеют равное право на свое существование. Так для 1-метил-3-бром-циклогексена-1:

 
 

а) CC1=CC(Br)CCC1

б) CC1=CC(CCC1)Br

 

Можно написать много различных кодов для одной и той же молекулы в зависимости от места «раскрытия» кольца. SMILES не дает указаний на предпочтения тому или иному месту «входа» в молекулу.

 
 




Поделиться с друзьями:


Дата добавления: 2015-06-04; Просмотров: 2870; Нарушение авторских прав?; Мы поможем в написании вашей работы!


Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет



studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление




Генерация страницы за: 0.007 сек.