В настоящее время сверхкритические флюиды (СКФ) находят широкое применение в различных областях химии и химической технологии как растворители в процессах экстракции, сепарации и адсорбции. Прежде всего это связано с тем, что величина растворимости вещества в СКФ существенно зависит от температуры и давления: вещество, практически не растворимое в одних условиях, может хорошо растворяться в других. Поиск таких условий процесса, при которых будет достигнута максимальная степень извлечения целевого вещества, является важной задачей для технологов.
Для ее решения в первую очередь необходимы экспериментальные данные по растворимости веществ в сверхкритическом растворителе, однако для исследования их поведения при изменении условий процесса этих данных не всегда бывает достаточно. В таких случаях обычно прибегают к математическим моделям, способным прогнозировать растворимость определенного вещества или веществ в заданных условиях.
На сегодняшний день существует большое количество научных публикаций, содержащих как экспериментальные данные по растворимости различных веществ в СКФ (чаще всего это диоксид углерода), так и математические модели, позволяющие прогнозировать растворимость на имеющейся выборке соединений, однако единой информационной системы, позволяющей хранить, обрабатывать и проводить анализ данных в области химии и технологии СКФ, нет.
В данной статье представлен программный комплекс для прогнозирования растворимости в СКФ. Структура программного комплекса представлена на рисунке 1.
Основные компоненты системы – ядро, информационно-поисковый модуль, модуль прогнозирования растворимости и БД.
Ядро системы является связующим элементом для всех остальных компонентов и предоставляет внешним модулям базовый функционал по работе с химическими соединениями. На уровне ядра для внутреннего представления структур химических соединений используются молекулярные графы, где вершинам соответствуют атомы молекулы, а ребрам – химические связи между ними. Вершины и ребра молекулярного графа при необходимости могут быть дополнены информацией о трехмерных координатах атомов, длинах и полярности связей и т.п. Обработка и хранение молекулярных графов инкапсулированы внутри ядра, поэтому внешние модули работают с химическими соединениями как с цельными сущностями.
Модуль молекулярной динамики необходим для определения пространственной структуры химического соединения по его структурной формуле при помощи методов молекулярной динамики. Для молекулярно-динамических расчетов в программе используется специальная библиотека с открытым исходным кодом OpenBabel [1]. Информация о трехмерной структуре молекулы часто бывает необходима для расчета числовых значений некоторых молекулярных дескрипторов, используемых при прогнозировании растворимости.
Модуль импорта/экспорта позволяет обмениваться информацией о структуре и свойствах химических соединений со сторонними програм- мными продуктами (например молекулярными редакторами). Для этого в модуле реализована поддержка наиболее распространенных и популярных форматов представления химических структур, таких как CML (Chemical Markup Language, язык химической разметки), SMILES (Simplified Molecular Input Line Entry Specification, спецификация упрощенного представления молекул в строке ввода), MDL, SDF и др. [2].
Модуль прогнозирования растворимости предназначен для получения численного значения растворимости целевого вещества в сверхкритическом растворителе при некоторых фиксированных внешних условиях (температура, давление, тип растворителя). Для расчета растворимости индивидуальных веществ в сверхкритических условиях используются полуэмпирические модели: модель Крастила (Chrastil), модель де Валле и Агилера (del Valle and Aguilera), модель Адачи и Лу (Adachi and Lu), модель Бартла (Bartle) и др. Параметры таких моделей подбираются на основе имеющихся данных по растворимости.
Для предсказания растворимости тех веществ, экспериментальных данных по которым нет или недостаточно для построения модели с высокой прогнозируемой точностью, используются методология QSPR (Quantitative Structure-Property Relationship), а также теория молекулярного подобия, позволяющие оценить некоторое свойство заданного вещества (в данном случае растворимость) по его структуре и свойствам похожих веществ. В таких моделях для выявления степени похожести молекулярных структур и прогнозирования свойств химических соединений исполь- зуются количественные характеристики – моле- кулярные дескрипторы. Такими дескрипторами могут быть разнообразные физико-химические величины, значения которых можно получить экспериментально или рассчитать, а также математические конструкции – фрагментарные дескрипторы, топологические индексы [3]. На рисунке 2 показан пример QSPR-модели, использующей семь молекулярных дескрипторов: моменты инерции (MOMI-X, MOMI-Y), коэффициент распределения в системе октанол–вода (XlogP), индекс Винера (WPOL), индекс Кира и Холла третьего порядка (SP-3), индекс связности молекулярного графа третьего порядка (X3Av) и сумму атомных поляризуемостей (apol). Такая модель дает неплохие результаты расчета растворимости ароматических углеводородов в сверхкритическом диоксиде углерода.
Модуль прогнозирования растворимости позволяет использовать произвольные выборки соединений для построения подобных моделей, а также исследовать влияние на растворимость различных молекулярных дескрипторов.
Информационно-поисковый модуль дает возможность для каждого индивидуального вещества вывести в удобном графическом виде экспериментальные и расчетные данные по растворимости, а также информацию о математических моделях, наиболее точно описывающих растворимость этого вещества. Для большего удобства использования предусмотрен поиск по классу химического соединения, химическому названию, регистрационному номеру CAS (уникальный численный идентификатор веществ, внесенных в реестр Chemical Abstract Service) или по SMILES-идентификатору (рис. 3).
Кроме этого, информационно-поисковый модуль содержит алгоритмы вычисления структурной схожести двух химических соединений путем анализа числа вхождений различных молеку- лярных подструктур в исходные структуры [2]. Подобные алгоритмы позволяют вывести все соединения, структурно идентичные исходному веществу, и сравнить растворимость найденных соединений при фиксированных внешних условиях.
БД программы содержит экспериментальные данные по растворимости различных веществ в сверхкритических растворителях, плотности сверхкритических растворителей в зависимости от температуры и давления, а также информацию о химической структуре веществ. На данный момент БД (реляционную модель см. на рис. 4) содержит информацию по растворимости более чем пятисот различных химических соединений (более двадцати тысяч экспериментальных точек) в сверхкритическом диоксиде углерода и других, наиболее часто применяемых растворителях.
Таблица Substances содержит основную информацию о веществах (название, молекулярная масса, регистрационный номер CAS, краткое описание, а также идентификатор SMILES). Каждое вещество может соответствовать одному или более классам соединений (например спирты, амины и т.п.); все возможные (для рассматриваемой в данной работе выборки соединений) классы веществ описаны в таблице Categories. Она содержит названия и описания по каждому классу соединений. Таблица CatDictionary содержит информацию о том, какие вещества относятся к тому или иному классу.
Таблица Descriptors содержит информацию обо всех дескрипторах, необходимых для работы рассмотренных выше моделей QSPR. Для каждого дескриптора в таблице имеются символьное сокращение (marker), название и краткое описание. Таблица DescriptorsDictionary содержит численные значения (value) каждого дескриптора для каждого химического соединения из таблицы Substances.
Информация об экспериментальных данных размещена в таблицах Experiments, ExperimetTypes, Publications, Points. Таблица Experiments агрегирует всю информацию о каждом проведенном эксперименте (какое вещество растворялось, растворитель, тип эксперимента, публикация и краткое описание эксперимента). Таблицы ExperimetTypes и Publications содержат, соответственно, информацию о доступных типах экспериментов и публикациях-источниках. Таблица Points содержит информацию об экспериментальных точках. Для каждой точки известны давление (МПа), температура (К), растворимость и единицы измерения растворимости (чаще всего это мольные доли и молярность).
Таблица Density содержит экспериментальные данные по плотности различных растворителей в зависимости от давления и температуры. Значение плотности сверхкритического растворителя необходимо для расчета растворимости. При отсутствии экспериментальной информации плотность растворителя при заданных внешних условиях вычисляется по уравнению состояния.
Информация о моделях, используемых для прогнозирования растворимости индивидуально для каждого растворенного вещества, помещена в таблице Models, включающей тип модели, коэффициент детерминации, среднее относительное отклонение (ARD), количество точек и количество параметров по каждой модели. Информация о числовых значениях параметров (value) каждой модели содержится в таблице ModelsParams.
Разработанный программный комплекс имеет клиент-серверную архитектуру – СУБД (система управления БД), как и сама БД комплекса, находится на удаленном сервере, а небольшая программа-клиент имеет соответствующий интерфейс для взаимодействия с БД. Такой подход позволяет уменьшить объем программы до приемлемых размеров, упростить установку и использование программы, а также гарантировать безопасность данных и актуальность информации, хранящейся в БД, за счет своевременного обновления и исправления.
Литература
1. Open Babel: The Open Source Chemistry Toolbox. URL: http://openbabel.org/wiki/Main_Page (дата обращения: 14.12.2011).
2. Daylight Theory Manual URL: http://www.daylight.com/ dayhtml/doc/theory/index.html (дата обращения: 14.12.2011).
3. Todeschini R., Consonni V., Handbook of Molecular Descriptors, Weinheim: Germany, WILEY-VCH Publ., 2000.