На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
09 Декабря 2024

Разработка автоматизированной базы термодинамических данных с элементами искусственного интеллекта

Статья опубликована в выпуске журнала № 3 за 2002 год.
Аннотация:
Abstract:
Авторы: Репин А.А. () - , Туровцев В.В. (turtsma@tversu.ru) - Тверская государственная медицинская академия, кандидат физико-математических наук, Орлов Ю.Д. (Yurij.Orlov@tversu.ru) - Тверской государственный университет, доктор химических наук
Ключевое слово:
Ключевое слово:
Количество просмотров: 11365
Версия для печати
Выпуск в формате PDF (1.16Мб)

Размер шрифта:       Шрифт:

Современное развитие технологических процессов, фундаментальных и прикладных исследований в отраслях энергетики, химической технологии, экологии невозможно без обеспечения количественной информацией о свойствах отдельных веществ и композиций. Среди этой информации данные по термодинамическим характеристикам соединений относятся к чрезвычайно важным. На их основе производятся оценки энергетики, а также детальные исследования кинетики и механизмов процессов, связанных с химическими превращениями.

Наиболее распространенным и привычным способом представления количественной информации являются справочники и справочные издания. Но при быстром накоплении очень больших массивов данных все очевиднее становятся недостатки этого способа: громоздкость, ведущая к затруднениям при пользовании, и отсутствие динамизма, вследствие которого часть данных "устаревает" уже в течение издательско-типографского периода. Другой способ представления данных – картотеки, существующие, как правило, в единственном экземпляре и, следовательно, недоступные широкому кругу пользователей.

Стремительное развитие компьютерной техники и средств связи стимулировало развитие нового электронного способа представления баз данных, которые включили в себя достоинства вышеупомянутых способов с одновременным преодолением их недостатков. Это привело к созданию многочисленных автоматизированных баз данных по различным вопросам, к развитию компьютерных систем управления базами данных, к разработке научных основ компьютерного способа их представления. В частности, были разработаны базы данных и по термодинамическим свойствам химических соединений.

В настоящие время широко известен электронный банк данных Национального института стандартов и технологий США (NIST) [I]. Один из его разделов относится к химии [2], который, в свою очередь, делится на набор баз данных по различным темам [3]. Для поиска необходимой информации в указанных ресурсах существуют программы-навигато- ры [4]. Используя их, можно осуществлять поиск по брутто-формуле, по названию молекулы, по авторам, структурам и номерным кодам. Перечень термодинамических величин, которые могут быть получены в результате поиска, включает в себя стандартные энтальпии образования, стандартные энтропии, теплоемкости для различных агрегатных состояний, термодинамические данные фазовых переходов, давления насыщенных паров, температуры плавления и кипения, критические величины. Наряду с молекулами, в базах данных широко представлены и радикалы, но они описаны крайне скудно. Кроме того, существует отдельная база данных по ионам [5]. Следует отметить еще несколько зарубежных баз термодинамических данных: BEILSTEIN, DETHERM, DIPPR, GMELIN, HODOC, ICSD, JANAF, TRCTHERMO [6]. На уровне лучших мировых разработок находится и российская база данных ИВТАНТЕРМО [7]. На сайте химического факультета МГУ также имеется база данных по термическим константам веществ [8].

Дальнейшее развитие химических технологий невозможно без наличия данных для все более широкого круга соединений. Решение этой задачи экспериментальным путем требует проведения прецизионных исследований. Для их выполнения требуются большие финансовые и временные затраты. Синтез исследуемого вещества в большинстве случаев представляет не менее сложную и дорогостоящую задачу, а зачастую и невозможен (например, ввиду ограничений по стабильности или токсичности веществ). Кроме того, для многих классов органических соединений уже накоплен значительный объем информации. Для них значения многих термодинамических характеристик новых соединений можно получить, используя методы расчетного прогнозирования. Поэтому важное значение приобретают задачи развития этих методов, направленные на их автоматизацию. Это открывает возможности для их использования в базах данных, что, по сути дела, является внесением элементов искусственного интеллекта в электронные источники справочной информации по термодинамике.

Базируясь на этой идее, мы предлагаем концепцию базы термодинамических данных нового поколения. Суть ее состоит в интеллектуализации базы данных. На данном этапе это может быть достигнуто путем оснащения традиционных баз элементами искусственного интеллекта. Среди элементов такого рода реально реализуемыми мы считаем следующие.

1. Оснащение баз данных средствами расчетного предсказания значения необходимой характеристики в случае ее отсутствия в фонде экспериментальных данных.

2. Автоматизированный поиск количественных корреляций строение-свойство, используемых для расчетного предсказания величин.

3. Автоматизация элементов процесса верификации новых данных, вводимых в базу, на основании известных соотношений между различными термодинамическими характеристиками.

В настоящее время нами создается вариант автоматизированной базы термодинамических данных, в которой расчетные предсказания неизвестных значений основных термодинамических характеристик строятся в рамках феноменологического подхода на базе аддитивно-группового метода [9,10]. В его основе лежит предположение о том, что экстенсивные свойства молекул можно представить в виде суммы вкладов (инкрементов) определенных фрагментов – групп атомов. При этом большое число молекул моделируется ограниченным набором групп. Под группой подразумевается неодновалентный атом с его одновалентными лигандами. Данный метод хорошо зарекомендовал себя с точки зрения надежности и точности. Постановка задачи предполагает автоматизацию идентификации групп и при необходимости введение новых групп с определением их инкрементов (в соответствии с указанным выше пунктом 2).

В структуре предлагаемого программного комплекса выделяются три основные части: блок данных, расчетный блок и пользовательский интерфейс, предназначенный для работы с этими составляющими и одновременно выполняющий функции управляющего модуля. Всю информацию, которую должен содержать блок данных, можно условно разделить на основную и вспомогательную. К основной относятся рекомендованные по специальным критериям экспертизы [11] значения величин термодинамических свойств органических соединений, а также значения параметров для расчета термодинамических свойств соединений. Вспомогательная информация тоже может быть разделена на два типа. К первому относятся сведения об объектах (названия соединений, в том числе синонимы, сведения об их элементном составе и строении). Ко второму относится вся сопутствующая основным величинам информация: сведения о результатах всех экспериментальных оценок величин, методах и условиях их получения, основные характеристики приборов, данные об авторах и времени исследования, библиографическая информация, а также замечания эксперта относительно рекомендуемой величины (уровень надежности и т.п. [11]).

Одним из ключевых вопросов создания компьютерных баз данных о свойствах молекул, и в особенности баз данных, нацеленных на развитие по линии ителлектуализации, является вопрос о выборе компьютерного способа представления химических структур [12]. Наиболее широкое распространение среди них получили следующие:

-    отображение в виде так называемых Z-матриц;

-    отображения в виде линейных представлений;

-    представление, основанное на использование методов теории графов.

Отображение в виде Z-матрицы используется в квантово-химических методах расчетов свойств молекул [13]. Оно подразумевает наличие детальной информации по геометрическому строению соединений.

Отображения в виде линейных представлений представляют собой развитие номенклатуры химических соединений. Наиболее распространенной из них является система линейных формул Висвессера (ЛФВ) [14]. Химическое соединение в системе ЛФВ задается линейным перечнем символов, дающим их полное описание. В этой системе атомы или группы атомов записываются в виде символов, которые подчиняются синтаксису, служащему для описания взаимоотношений частей, и правилам (около 300), предусматривающим порядок расположения символов. Все это обеспечивает единственный и однозначный способ представления химических соединений. Тем не менее, возникают существенные сложности при описании соединений с новыми функциональными группами. Это влечет за собой необходимость разработки новых правил в системе ЛФВ при описании новых классов веществ.

К пункту 3 относятся способы представления молекул в виде матрицы смежности и таблиц связности. Термином матрица смежности принято обозначать квадратную матрицу размерностью N´N, соответствующую N атомам молекулы, исключая водород, в которой недиагональные элементы 1 и 0 отвечают соответственно наличию или отсутствию связи между атомами. В таблицах связности информация о химическом соединении представлена с помощью таблицы атомов и таблицы связей. В первой построчно приводится информация об атомах, а во второй – о связях. Каждый из этих способов представления химических соединений имеет свои преимущества и недостатки.

Мы полагаем, что для решения поставленных задач наиболее удобным вариантом является использование матрицы смежности. При этом очень важно, что ее можно легко модифицировать для записи более полной информации о молекуле или радикале. Соответственно для представления органических соединений была выбрана матрица смежности, модифицированная так, чтобы на ее главной диагонали находилась информация об атомах, составляющих вещество (за исключением водорода), а ее недиагональные элементы показывали химические связи между атомами и их тип. На этой основе нами разработаны тополого-групповой алгоритм фрагментации органических соединений [15] и алгоритм автоматизации расчета энергий диссоциации связей (D) [16]. Использование этих алгоритмов позволяет автоматически выделять структурные элементы (группы) и моделировать процесс диссоциации молекулы на два радикальных фрагмента.

Таким образом, нам удалось автоматизировать расчетное прогнозирование энтальпий образования молекул и радикалов и энергий диссоциации связей.

Рассмотрим алгоритм идентификации набора структурных фрагментов (групп), составляющих молекулу, которая задана в виде матрицы смежности (согласно теории окрашенных графов).

Построение молекулярного графа осуществляется по следующим правилам.

·     Вершинами молекулярного графа, представляющего рассматриваемую молекулу, должны быть все ее атомы за исключением атомов водорода.

·     Все вершины молекулярного графа нумеруются.

·     Каждой вершине ставится в соответствие номер соответствующего химического элемента, входящего в молекулу.

·     Ребрам молекулярного графа присваивается вес в зависимости от кратности связей соответствующих атомов молекулы.

Из полученного молекулярного графа строится матрица смежности так, чтобы:

-    в элементы главной диагонали в зависимости от номера вершины молекулярного графа записывался код, несущий информацию об атоме (номер химического элемента, валентность, количество связанных с ним атомов водорода, количество неспаренных электронов);

-    недиагональные элементы матрицы смежности Аij (i¹j) равнялись 0, если i-я и j-я вершины молекулярного графа не являются смежными и k, если i-я и j-я вершины смежные и инцидентное (по терминологии теории графов связывающее) этим вершинам ребро имеет вес, равный k.

Вес ребер k определяется по типу химических связей между атомами молекулы: 1 – одинарная связь (валентная), 2 – двойная связь (ковалентная), 3 – тройная связь, 4 – ароматическая.

Идентификация групп, составляющих молекулу, осуществляется следующим образом. Поочередно рассматривается каждая строка, i-му атому молекулы соответствует i-я строка. По элементу главной диагонали Аij определяется центральный атом группы (его валентность по определению должна быть больше 1). Иначе рассматриваем следующую строку. При идентификации центрального атома группы учитываются типы химических связей данного атома для определения его гибридизации. Последняя определяется по недиагональным элементам матрицы смежности рассматриваемой строки Аij (j¹i и j=1,N; i – номер центрального атома рассматриваемой группы). Значение Аij показывает кратность связи, а индекс j указывает на номер атома, непосредственно с ним связанного. Таким образом, по элементам главной диагонали Аij аналогично определяются элементы, составляющие окружение данной группы.

Для моделирования реакции диссоциации на ЭВМ нами разработан алгоритм разбиения матрицы смежности исходной молекулы на матрицы смежности получаемых фрагментов (два радикала или атом и радикал). При этом мы исходили из традиционного определения (1) энергии диссоциации связи

D(R1–R2)=DH0f (R·1) + DH0f (R·2) – DH0f(R1R2) (1)

как энтальпии реакции (2)

R1R2 ® R·1 + R·2.                                                   (2)

По (1) D можно рассчитать из величин энтальпий образования DH0f продуктов и реагентов реакции (2). Величины DH0f рассчитываются по аддитивно-групповому подходу на основании инкрементов групп, составляющих соответствующие соединения.

В рамках предложенного алгоритма необходимо построить матрицы смежности, соответствующие радикалам, которые получаются при разрыве данной связи. Алгоритм состоит из трех главных блоков, в которых осуществляются следующие шаги.

1. Для указанной связи между i-м и j-м атомами элементы Аij и Aji зануляются, элементы Аii и Ajj специально помечаются (как радикальные).

2. На основании анализа измененной (по п. 1) матрицы смежности молекулы определяются номера атомов, входящие в каждый радикал по следующему алгоритму. Начиная с элемента А11, записывается номер его строки. Далее перебираются элементы этой строки по порядку до тех пор, пока A1j не окажется отличным от нуля. Затем А1j приравнивается к нулю и осуществляется переход к элементу Ajj с занесением его номера в список атомов, входящих в этот радикал. Аналогично проверяется j-я строка, начиная с элемента Ajj+i. Это продолжается до тех пор, пока все недиагональные элементы строк, номера которых присутствуют в списке атомов радикала, не будут равны нулю. Запись в список атомов данного радикала периодически упорядочивается по возрастанию, при этом исключаются повторяющиеся номера. В результате выполнения этого алгоритма получаем список атомов одного из радикалов, упорядоченный по возрастанию их номеров. Атомы с оставшимися номерами составляют второй радикал.

3.  Используя полученные номера атомов каждого радикала, матрицы смежности радикалов строятся по следующему правилу: если радикал представлен атомами с номерами i,j,k,m,…,z, причем i

Aii

Aij

Aik

Aim

Aiz

Aji

Ajj

Ajk

Ajm

Ajz

Aki

Akj

Akk

Akm

Akz

Azi

Azj

Azk

Azm

Azz

 

Элементы матрицы переносятся из элементов из-мененной матрицы смежности исходной молекулы.

Особый подход применяется при рассмотрении связей с участием атома водорода, то есть R-H. Это связано с тем, что в базовом алгоритме связи R-H фактически не рассматриваются, так как учет атомов Н осуществляется автоматически. В данном случае матрица смежности радикала R· отличается от матрицы смежности молекулы RH только тем, что атом, от которого отрывают Н, помечается как радикальный. Отметим, что атомы водорода, соединенные с одним и тем же многовалентным атомом, полагаются нами эквивалентными, и значения D(R-H) соответствующих связей будут равны. В таком случае при решении поставленной задачи необходимо поочередно проверить все диагональные элементы Аii матрицы смежности на наличие связей с атомами Н. Последующая замена рассматриваемого элемента Аii на радикальный производится с учетом отмеченной эквивалентности единожды.

Предложенные алгоритмы открывают возможноcть для автоматизированного прогнозирования данных по энтальпиям образования радикалов и молекул, а также по энергиям диссоциации химических связей на основании аддитивно-группового подхода и накопленного фонда экспериментальных данных.

В течение ряда лет нами ведется работа по реализации представленного проекта. Создан пользовательский интерфейс, реализованы алгоритмы автоматизации и база данных по параметрам для молекул и радикалов.

Представленные идеи являются первыми элементами искусственного интеллекта в термодинамических базах данных и показывают главное направление их развития, заключающееся в дальнейшей интеллектуализации.

Список литературы

1.  National Institute of Standards and Technology, http://www.nist.gov/

2.  NIST Chemistry WebBook. http://webbook.nist.gov/chemistry/

3.  A Guide to the NIST Chemistry WebBook. http://webbook. nist.gov/chemistry/guide/

4.  Search for Species Data by Chemical Formula. http://webbook.nist.gov/chemistry/form-ser.htm

5.  Gas-phase ion thermochemistry. / Sharon G. Lias and John E. Bartmess. http://webbook.nist.gov/chemistry/ion/

6.  CHEMDATA. Chem Properties and Data Cluster (Numeric Data). http://www.csti.yar.ru/www/webJSost/stn/level21 .him

7.  База данных Ивтантермо. http://www.chem.msu.su:8081 /ms/handbook/ivtan/welcome.html

8.  Термические константы веществ, http://www.chem.msu. su/cgi-bin/termo2b

9.  Бенсон С. Термохимическая кинетика. - М.: Мир, 1999.

10.      Cohen N.11 J. Phys. Chem. Rev. Data, 1996, V.25, N6 p.1411.

11. Орлов Ю.Д., Лебедев Ю.А., Сайфуллин И.Ш. Термохимия органических свободных радикалов. - М.: Наука, 2001. - 304 с.

12. Барон Р., Шанон М. Компьютерное планирование органического синтеза. В кн: ЭВМ помогает химии. / Под ред. Г. Вернена, М. Шанона - Л.: Химия, 1990. - С. 11-83.

13. Кларк Т. Компьютерная химия.- М.: Мир, 1990.- 383 с.

14. Smith E.G., Becker P.A. The Wisswesser Line Formula Chemical Notation. L.: Cherry Hill, 1976.

15. Репин А.А., Орлов Ю.Д. Тополого-групповой алгоритм фрагментации органических соединений. // Ученые записки ТГУ. - 1999. - Т.5. С. 102-105.

16. Репин А.А., Орлов Ю.Д. Алгоритм автоматизации расчета энергий диссоциации связей // Там же. - 2001. - Т.6. - С. 78-81.


Постоянный адрес статьи:
http://swsys.ru/index.php?id=692&page=article
Версия для печати
Выпуск в формате PDF (1.16Мб)
Статья опубликована в выпуске журнала № 3 за 2002 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик: