КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Правила SMILESSMILES (Simplified Molecular Input Line Entry System) Правила ROSDAL. 1. Вся структура нумеруется; 2. Символы атомов пишутся сразу после номера (символ углерода С не пишется); 3. Водороды не обозначается или нумеруются наравне со всеми атомами; 4. Одинарные связи обозначаются –, двойные =, тройные #, другие?; 5. Разветвления перечисляются через запятые. Рассмотрим алгоритм кодирования в формате ROSDAL на примере молекулы фенилаланина. После того как структура пронумерована начинаем запись кода молекулы, с учетом кратности связи. Сначала записываем бензольное кольцо, начиная с углерода под номером 1, затем через запятую все оставшиеся звенья молекулы.: 1=2-3=4-5=6-1,5-7-8-9=12O,8-10N,9-11O. 1N-2-4-5N=6-7S-8=4, 2=3O, 6-8N-10N=11-12, 11-13. Данная кодировка была создана в 1986. 1. Все атомы пишутся символами. 2. Водороды не обозначается. 3. Ароматические атомы указываются маленькими буквами. 4. Одинарные связи не отмечаются, двойные обозначаются =, тройные #. 5. Для разветвления используются скобки. 6. Кольца нумеруются цифрами – цифра ставится у тех атомов, которые образуют кольцо.
7. Цис- танс изомерия относительно двойной связи / или \ в зависимости от направления. 8. Стереоизомерия (энантиомеры) обозначают @ (влево от смотрящего) или @@ (вправо от смотрящего). NC(C)(F)C(=O)O Без указания хиральности (рацемат)
N[C@](C)(F)C(=O)O Хиральное соединение Атомы Все неводородные атомы пишутся в квадратных скобках [Au] - слева от элемента записывают изотоп, справа количество водорода у элемента в соединении)
Элементы, которые входят в состав органических веществ (B, C, N, O, P, S, F, Cl, Br, I), можно писать без квадратных скобок. Водороды к ним добавляются согласно валентности.
Заряд у атома (+ или -) пишется в квадратных скобках.
Например, запись SMILES для воды будет выглядеть как O, для этанола — CCO. Гидроксильный анионзаписывается [OH-], а для иона железа (III) запись [Fe+++] можно заменить на [Fe+3]. Связи Одинарная химическая связь может быть записана с использованием символа — между атомами, соединёнными связью, но на практике это не применяется, символ дефиса опускают. Обозначение ароматической связи двоеточие (:) обычно тоже опускают. Двойная связь обозначается с помощью знака равенства, например, двуокись углерода записывается в виде O=C=O. Тройная связь обозначается с помощью октоторпа (#), например, синильная кислота записывается как C#N.
Ионные связи отмечают как отдельные молекулы через точку [Na+].[Cl-] Хлорид натрия (NaCl) СС[O-].[Na+] Этилат натрия (C2H5ONa) Разветвления Боковые цепи отделяют от основной цепи скобками. Боковые цепи молекулы заключаются в круглые скобки. Например, пропионовая кислота записывается как CCC(=O)O. Каноническая форма записи трифторметана выглядит как C(F)(F)F, однако такая запись неудобна для чтения из-за своей перегруженности скобками, поэтому ту же молекулу можно записать в неканонической форме как FC(F)F. трифторметан FC(F)F ССN(CC)CC
СC(C)C(=O)O
С=CC(CCC)C(C(C)C)CCC
Запись циклических структур
В зависимости от того, какую линию связей выбрать за основную, может существовать несколько вариантов записи SMILES-кода при этом они имеют равное право на свое существование. Так для 1-метил-3-бром-циклогексена-1:
а) CC1=CC(Br)CCC1 б) CC1=CC(CCC1)Br
Можно написать много различных кодов для одной и той же молекулы в зависимости от места «раскрытия» кольца. SMILES не дает указаний на предпочтения тому или иному месту «входа» в молекулу.
Дата добавления: 2015-06-04; Просмотров: 2870; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |