КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Неуникальные и неоднозначные
Неуникальные и однозначные Уникальные и неоднозначные
А. Традиционные; общепринятые большая часть молекулярных формул, например С4Н10. Б. Нетрадиционные: любые фрагментарные коды (CBCC) или любые классификационные коды (такой как Визелогле), в рамках своих правил. А. Традиционные; общепринятые - «Систематические» имена, которые не ограничиваются рамками правил номенклатуры. Структурные формулы. Б. Нетрадиционные: - топологические коды, такие как Нортон-Оплер, Вальдо и Гайштагер.
А. Традиционные; общепринятые - Основные тривиальные имена, такие как соли, масла, спирты, и др. Б. Нетрадиционные - Любые фрагментационные или классификационные коды, которые не ограничиваются рамками своих правил.
В настоящее время существует множество систем кодирования и анализа химических структур. Под системой кодирования понимают совокупность лексических и грамматических правил, позволяющую ставить в соответствие каждой структурной формуле слово (цифру) в заданном алфавите (системе исчисления). Можно выделить три основных типа систем кодирования: фрагментарные коды, линейные нотации и топологические методы. При фрагментарном представлении структур соединение рассматривается как сумма определенных фрагментов, каждый из которых имеет свое условное обозначение. Так, в частности, применяют линейная нотация Висвессера, в основе которого используют 40 символов: 26 латинских заглавных букв, 10 цифр, три знака и пробел. Буквами обозначают структурные элементы (функциональные группы, бензольное ядро и т.д.) и места расположения заместителей в циклах, цифрами - длины углеродных цепей или размеры циклов. Символы всегда располагают в порядке принятого в системе старшинства, что обеспечивает однозначность шифров. Например, часть словаря линейной нотации Висвессера. кодирующая кислород, состоит из 4 букв и 3 морфов: Q — гидроксил —ОН О — оксигруппа —О— V — карбонил в кетонах =О W — диоксогруппа. например, в —NO2 WH — карбонил в альдегидах =О(Н) WQ - карбоксил -СООН WO — сложноэфирная группа —СО—О— Пример кодирования по системе Висвессера структуры 2-этилиденгидразинкарбоксамида [7]: Здесь Z кодирует группу —NH2, V — карбонил >С=О, М — группу —NH—, N — группу — N<, U обозначает двойную связь, 2 — длину углеродной цепи. Неопентилхлорид (СН3)3С-СН2Сl имеет по Висвессеру шифр G1X (G обозначает хлорид. 1 - один С-атом. X - четвертичный атом углерода). n-Аминобензойная кислота NН2С6Н4СООН -шифр ZRDVQ [ Z - аминогруппа. R - бензольное кольцо. D – четвертичное положение второго заместителя в бензольном кольце. VQ - природа этого заместителя (V - карбонильная группа. Q - гидроксил)]. Шифры Висвессера используются в системе CROSSBOW в фирме "Imperial chemical industries” в Великобритании. Имеется программное обеспечение по автоматическому переводу структурных формул в шифры Висвессера. Другим способом фрагментарного кодирования являются шифры ИЮПАК, в основе которых используется система Дайсона, базирующаяся на женевской номенклатуре органических соединений. Например, запись формулы неопентил хлорида в системе Дайсона - С3С22Сh -расшифровывается так: Сh - хлорид: С3 - цепь из трех атомов углерода: С22 - два С-атома (СН3-группы) у второго углеродного атома цепи. Шифр n-аминобензойной кислоты -В6СХ1N4: В6 - бензольное кольцо: С - один алициклический С-атом: X1 - СООН-группа в положении 1: N4 - аминоположении 4. В отличие от систем Висвессера и Дайсона, дающих строго однозначный, т.е. канонический вид представления информации, существуют так называемые неканонические системы фрагментарного кодирования: структура одного и того же соединения может быть представлена различными кодами, которые с помощью компьютера переводятся в канонический вид. Такая система, в частности, разработана и функционирует в ВИНИТИ для ввода структур органических соединений на магнитные носители. В основе "произвольно-блочной" системы кодирования ВИНИТИ используется предварительная обработка структурной формулы - она расчленяется на циклические фрагменты, имеющиеся в них заместители и фрагменты-связи. Способы фрагментарного кодирования чаще всего используют при создании различных автоматизированных систем библиографии, к основным требованиям и назначениям которых следует отнести - быстрый анализ и регистрация новых данных, поиск и выдача информации по запросу потребителя при компактном размещении большого массива данных на магнитных носителях. В то же время при фрагментарном представлении структур теряется ценная информация об общем строении молекулы, что является существенным ограничением их применения при решении различных аналитических задач поиска корреляционных зависимостей типа "структура - свойство". В основе представления химических структур с помощью линейных нотаций используются различные лингвистические модели, базирующиеся на преобразовании исходных структур в набор дескрипторов, характеризующих наличие или наоборот отсутствие определенных структурных фрагментов, а так же физико-химические свойства отдельных структурных фрагментов или полностью молекулы как единого целого. Многие лингвистические модели построены на применении одного из четырех типов формальных грамматик Хомского. Наиболее часто в этих моделях используются следующие положения: вводятся определенные обозначения основных функциональных групп: линейные цепочки отображаются в порядке расположения в структурной формуле атомов или функциональных групп, боковые ответвления заключаются в круглые скобки: в сложных циклических системах вводится индексация точек начала, окончания и сопряжения циклов. Используемая для анализа представления химических структур грамматика включает в себя различные множества кодов атомов и функциональных групп, а также правил грамматики, описывающих определенный класс органических соединений. Например, для циклической структуры: 1-хлор-3-изопропил-5-метил-7-этил-2-окса-1,2,3,4-тетрагидронафталин предложена следующая линейная нотация кодирования: В этой записи использована следующая система условных обозначений C O G – атомы углерод, кислорода, хлора, () – боковые ответвления. # и & - начало и конец цикла, U – двойная связь. С1 и С2 – индексация точек сопряжения двух циклов. В отличие от фрагментарного кодирования форма представления линейных нотаций значительно больше содержит информации о структуре конкретного соединения, и тем не менее обработка данных в таком виде в процессе компьютерного структурного анализа в ряде случаев не позволяет решать некоторые задачи, например однозначное установление изоморфизма структур, определение общих частей структур, а так же оценка положения этих частей в структуре. Кроме того в линейных нотациях химических структур часто используются неканонические системы кодирования. Фрагменты линейных кодов и их количественные характеристики ранее широко применялись в качестве подструктурных параметров для построения зависимостей «структура—свойство». В одной из первых таких работ [11] по выборке из 850 структурно разнородных соединений, проявляющих различные виды биологической активности, на основе описания по нотации Висвессера был сформирован первичный словарь признаков — подструктурных фрагментов. Затем для каждого вида активности методом подструктурного анализа были определены наиболее информативные признаки-фрагменты, которые в дальнейшем были использованы для конструирования новых активных соединений.
Дата добавления: 2015-06-04; Просмотров: 596; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |