Гидрофобное взаимодействие является одним из основных факторов, определяющих пространственную структуру белковой молекулы [1]. Совокупность неполярных атомов белка, занимающих некоторую область пространства внутри молекулы – это гидрофобный кластер. Обычно среди гидрофобных кластеров белкового домена выделяется один самый большой, называемый гидрофобным ядром данного домена.
Автоматическое выявление гидрофобных кластеров (в частности, гидрофобного ядра) в заданной пространственной структуре белка или комплекса биологических макромолекул является важной задачей биоинформатики. Для ее выполнения был создан ряд компьютерных программ [2, 3]. В данной работе использована программа CluD [4]. Она принимает на вход файл с пространственной структурой белка в PDB-формате, а также ряд параметров, в том числе список атомных групп, которые считаются неполярными. Программа CluD выдает набор гидрофобных кластеров в этой структуре, причем для каждого кластера приведен список образующих его атомов.
Цель настоящей работы – создание компьютерной программы Conclus для выявления консервативных гидрофобных кластеров семейства родственных белковых доменов и тестирование ее на нескольких семействах белковых доменов.
Известно, что консервативные (то есть сохраняющиеся у всех или у большинства белков семейства) особенности структуры, как правило, наиболее важны с биологической точки зрения. В данном случае можно ожидать, что аминокислотные остатки, принимающие участие в формировании консервативных кластеров, и в первую очередь консервативного гидрофобного ядра, важны для определения укладки доменов семейства.
Гидрофобный эффект – специальное понятие, принятое для описания следующего явления, происходящего в водном растворе (или ином полярном растворителе): неполярные молекулы, растворенные в нем, стремятся занять такое положение в пространстве, чтобы площадь контакта воды и неполярных молекул была минимальной. Обычно это выражается в том, что неполярные молекулы объединяются друг с другом и образуют шар. Такое стремление к объединению принято называть гидрофобной связью, или гидрофобным взаимодействием. Причина гидрофобного взаимодействия заключается в том, что неполярная молекула загораживает своей поверхностью часть заполненного водой пространства для прилегающих к неполярной поверхности молекул воды и тем самым угрожает порвать водородные связи этих молекул, если они будут смотреть на такую поверхность своими атомами водорода. Водородные связи обладают достаточно высокой энергией, и во избежание их потери молекулы воды поворачиваются и частично замораживают на гидрофобной поверхности свободу своих тепловых движений, что приводит к падению энтропии воды. Поэтому неполярные молекулы стремятся либо вовсе уйти из раствора, либо сократить площадь взаимодействия с водой.
Гидрофобный эффект играет очень важную роль в поддержании стабильности белковой структуры. Именно он сворачивает белковую цепь в компактную плотную глобулу и стабилизирует ее структуру. Кроме того, гидрофобная связь часто играет решающую роль во взаимодействии белка с другими молекулами и лигандами. Выявление гидрофобных кластеров белка позволяет решать такие задачи, как нахождение гидрофобного ядра, определение доменной структуры, предсказание положения в филогенетическом древе, описание механизмов межмолекулярного взаимодействия. К настоящему времени создано несколько методов, позволяющих автоматически находить гидрофобные кластеры по данной трехмерной структуре белка.
Алгоритм, предложенный в статье [2], ориентирован в первую очередь на поиск гидрофобного ядра. Оно определяется как совокупность боковых аминокислотных цепей, которые, во-первых, не контактируют с водой (то есть находятся в глубине белка), во-вторых, входят в состав альфа-спирали или бета-тяжа и, в-третьих, гидрофобно взаимодействуют с соседними боковыми цепями. Боковая цепь взаимодействует с другими цепями гидрофобным образом, если не менее 75 % ее атомов гидрофобно связаны другими атомами. Гидрофобная связь между двумя атомами существует, если это атомы углерода, расположенные друг от друга не дальше, чем сумма их ван-дер-ваальсовых радиусов плюс один ангстрем.
Алгоритм был успешно протестирован на нескольких белковых семействах. По мнению автора, обнаруженные гидрофобные ядра позволяют найти консервативные участки даже среди очень далеких белков, принадлежащих к одному семейству.
Метод, описанный в статье [3], направлен на поиск гидрофобных кластеров путем поиска и анализа участков белка, в которых остатки расположены очень компактно и близко друг к другу. Большинство найденных таким образом кластеров оказывались гидрофобными, то есть содержали в среднем 65 % гидрофобных боковых цепей (при общем среднем числе гидрофобных боковых цепей в белке 42 %). Кластеры, содержащие менее 40 % гидрофобных боковых цепей, выбрасывались из общего списка.
Алгоритм также был протестирован на нескольких белковых семействах. Полученные данные, по утверждению авторов, могут быть полезными в исследовании ранних интермедиатов процесса укладки белковой глобулы.
Авторы статьи [4] предложили радикально изменить методику поиска гидрофобных кластеров и определять их как совокупность гидрофобных атомов, а не гидрофобных остатков. Дело в том, что любой аминокислотный остаток состоит как из полярных, так и из неполярных атомных групп (к последним относятся, например, -CH3, -CH2-, -CH=, -SH и -S-группы). Кроме трехмерной структуры белка, предложенный алгоритм получает на вход список атомных групп, которые считаются неполярными. Далее программа рассчитывает возможность взаимодействия между всеми неполярными группами. Две неполярные группы считаются взаимодействующими, если расстояние между их центрами не превышает некоторого порога d (он задается параметром, по умолчанию равным 4.5 Ǻ) и никакая третья группа не препятствует взаимодействию первых двух. Затем из всех найденных взаимодействий составляется граф, который разбивается на подграфы. Подграф выделяется из графа, если число ребер внутри него намного больше, чем число ребер, соединяющих его с другими подграфами. Совокупность атомов, входящих в состав каждого подграфа, объявляется отдельным гидрофобным кластером.
Алгоритм работы программы, входные и выходные данные. Молекулы белков представляют собой линейные полимеры, состоящие из α-L-аминокислот. Последовательностью белка будем называть последовательность остатков аминокислот, из которых он состоит. В биоинформатике для обозначения различных аминокислот часто используются однобуквенные сокращения – в такой записи один белок можно представить как строку, состоящую из латинских букв. Под множественным выравниванием будем понимать последовательности гомологичных белков, расположенные друг под другом таким образом, что гомологичные, имеющие одинаковую функциональную нагрузку, одинаково расположенные в пространственном совмещении или иным образом сходные остатки аминокислот расположены в одном столбце. При этом в последовательностях допускается делать разрывы – гэпы (обычно обозначаются знаком «-»).
FASTA-формат – определенная форма текстовой записи последовательностей (которая может использоваться в том числе для записи выравниваний). В данной форме записи каждая новая последовательность белка должна начинаться со специальной строки, в которой после первого знака «>» могут находиться название и описание последовательности. Затем следует любое количество строк с собственно последовательностью аминокислотых остатков.
Protein Data Bank (PDB) – банк данных трехмерных структур белков и нуклеиновых кислот. В нем используются специальные идентификаторы структур (PDB-коды) и специальный формат записи пространственной структуры (PDB-формат). Обычно в рамках одной структуры белков содержатся несколько белковых последовательностей, которые называются цепочками; цепочки обозначаются латинскими буквами. Чаще всего в одной записи (в одном PDB-файле) хранится одна структура, но иногда таких структур бывает несколько, в этом случае они обозначаются номерами.
На вход программе подается выравнивание нескольких родственных белков в FASTA-формате. Название каждой последовательности должно начинаться с PDB-кода и идентификатора цепочки, которые соответствуют данной последовательности и разделены нижним подчеркиванием:
>1dt2_A
------eysaeeirklkqkfevpptdkelythI—
Tdna--rspYNSVGTVFvKgs-----------tL
>1agj_A
evsaeeikkheekwnkyygvnafnlpkelfskV—
DekdrqkypYNTIGNVFvKgq-----------tS
>1sot_A
-----------------------mtpasynlaV—
Rr------aAPAVVNVYnRglntnshnqleirtL
Кроме того, пользователь может указать номер структуры в записи PDB, которая соответствует введенной последовательности. Для этого к названию необходимо прибавить еще одно нижнее подчеркивание и цифру, которая соответствует номеру структуры (например 1faw_A_3). Структуры белков (в виде файла в PDB-формате) с данными кодами автоматически скачиваются с сайта банка PDB (http://www.rcsb.org/pdb/home/home.do). Если какие-либо из этих файлов уже есть в текущей директории, они не скачиваются и берутся из нее. Далее из каждого PDB-файла вырезается указанная в исходном выравнивании цепочка; если задан и номер нужной структуры, цепочка вырезается из нее. Последовательность из PDB-файла выравнивается с соответствующей последовательностью из входного выравнивания алгоритмом Нидельмана–Вунша [5]. Таким образом, каждому аминокислотному остатку исходной последовательности присваивается соответствующий ему номер, указанный в PDB-файле.
Кроме того, вырезанная цепочка подается на вход программе CluD, которая выдает список содержащихся в ней гидрофобных кластеров. Каждый кластер представлен в виде списка входящих в него атомов. Нумерация кластеров для отдельной цепочки производится случайным образом. Далее для каждого остатка исходной последовательности проверяется, включает ли он атомы, входящие в какой-либо кластер. Если включает, то номер этого кластера ставится в соответствие данному остатку.
Затем происходит процесс выявления консервативных кластеров. Каждой позиции исходного выравнивания теперь соответствует столбец из номеров гидрофобных кластеров, определенных для каждой последовательности отдельно. Если в нескольких позициях эти столбцы полностью совпадают и при этом в них нет гэпов, такое множество позиций объявляется консервативным гидрофобным кластером и ему присваивается уникальный для выравнивания порядковый номер. Итогом являются несколько глобальных кластеров, каждому из которых соответствует некоторое количество позиций выравнивания.
Далее список консервативных гидрофобных кластеров обрабатывается. Каждому из них присваиваются уникальный идентификатор, состоящий из одного знака (1–9 или a–z), и уникальный цвет, которыми кластер будет обозначен и раскрашен в выходных данных.
На выходе программа выдает два типа данных. Во-первых, это файл в формате HTML, представляющий исходное выравнивание, в котором остатки, принимающие участие в образовании разных консервативных кластеров, выделены разным цветом и к которому добавлена дополнительная строчка с номерами консервативных гидрофобных кластеров. Во-вторых, это сценарии для визуализатора пространственных структур RasMol. В них консервативные кластеры для каждой последовательности могут быть представлены как в виде совокупности остатков, так и в виде совокупности атомов (см. рис.). Кластеры на изображении пространственной структуры белка выделяются теми же цветами, что в HTML-выравнивании.
Вид выходных данных в формате HTML:
1aq8_A: DQETWFIPGGAAGAAFYTF
1kcb_A: DQETWLIPGGTAGAAFYTF
1mzy_A: DLETWFIRGGTAGAALYKF
hpcl: -2--2-2----1--2-2-2
Программа и вспомогательные скрипты реализованы на языке программирования Python.
Параметры программы и дополнительные функции. Кроме названия файла с исходным выравниванием, программа принимает на вход три параметра. Первый – это порог расстояния d, параметр для программы CluD, определяющий максимальное расстояние в ангстремах, которое допускается между взаимодействующими атомами. Значение параметра по умолчанию 5,0. Второй параметр определяет минимальный размер кластеров (в остатках), которые отбираются из выходных данных программы CluD для поиска глобальных кластеров. Параметр может принимать любые целые неотрицательные значения, а по умолчанию – 2. Третий параметр определяет минимальный размер консервативных гидрофобных кластеров (также в остатках), которые отбираются в итоговый список консервативных кластеров. Параметр может принимать любые целые неотрицательные значения, а по умолчанию – 2. Все эти параметры являются необязательными, то есть пользователь может не указывать их значения, и в таком случае последние берутся по умолчанию.
Если в названии последовательности из входного выравнивания после PDB-кода и значка «_» стоит не буква и не цифра, цепи по умолчанию присваивается значение «_». В таком случае в соответствующем PDB-файле программа будет искать остатки без идентификатора цепи (то есть те, у которых идентификатор цепи равен « »).
Если в исходное выравнивание добавить еще одну последовательность с названием >aligned, состоящую только из гэпов и прописных английских букв A, то программа будет работать только с теми остатками, которые находятся в одних позициях выравнивания с A, а прочие остатки будут игнорироваться и считаться гэпами. Эта опция полезна в том случае, когда необходимо найти консервативные гидрофобные кластеры лишь для части цепи.
Веб-интерфейс программы доступен в Интернете по адресу: http://mouse.belozersky.msu.ru/ ~bennigsen/conclus.html. Исходный код программы доступен по запросу у авторов.
Программа была протестирована на нескольких семействах белковых доменов из БД PFAM. Процесс тестирования выглядел следующим образом: сначала в БД PFAM (http://pfam.sanger.ac.uk) искались семейства, в которых по меньшей мере десять белков имели 3D-структуры из БД PDB. Далее для каждого семейства PDB-идентификаторы всех таких белков подавались на вход программе множественного пространственного выравнивания SSM (http://www.ebi.ac.uk/msd-srv/ssm/ ssmstart.html). Эта программа по пространственной структуре белков строит множественное выравнивание их последовательностей, причем колонки, остатки в которых были выровнены в пространстве, состоят из прописных букв, а в которых не выровнены – из строчных. По этому множественному выравниванию программой distmat (из пакета mEmboss) попарно строилась матрица расстояний, состоящая из значений процента различий между последовательностями. С помощью дополнительного скрипта выделялось множество последовательностей, в котором все последовательности отличаются друг от друга не более чем на заданную величину. Это множество вновь подавалось на вход программе SSM, после чего новое выравнивание подавалось на вход программе Conclus для определения консервативных гидрофобных кластеров, при этом она обрабатывала лишь те остатки, которые были выровнены друг с другом по данным программы SSM. Параметр «минимальный размер консервативного кластера в выходных данных» задавался равным 3, остальные параметры брались по умолчанию.
Всего исследовано 20 семейств белковых доменов. Для общей характеристики полученных данных выделено три типичных примера. В первом (см. табл.) исследовано семейство с альфа-спиральной архитектурой, во втором – с бета-тяжевой архитектурой, а в третьем показан случай не очень удачного результата применения программы. В таблице для каждого примера указаны рассматриваемое семейство с идентификатором БД PFAM (графа 1), количество последовательностей во входном выравнивании (графа 2), максимальный процент различий в матрице расстояний для этого выравнивания (графа 3), величина Overall RMSD в ангстремах (графа 4), выданная программой SSM для этого выравнивания, и число гидрофобных ядер, найденных программой Conclus для каждой структуры семейства (графа 5).
Некоторые характеристики исследованных семейств белковых доменов
При- мер
|
Графа
|
1
|
2
|
3
|
4
|
5
|
1
|
Globin (PF00042)
|
13
|
69,5
|
1.1 Ǻ
|
2
|
2
|
Multicopper oxidase (PF00394)
|
10
|
90,3
|
2.3 Ǻ
|
2
|
3
|
Trypsin (PF00089)
|
13
|
89,5
|
1.75 Ǻ
|
3
|
В первом примере рассматриваемый домен является альфа-спиральным. Гидрофобное ядро индивидуальных белковых структур занимало почти все пространство белка. Однако это ядро распалось на два консервативных гидрофобных ядра. Тем не менее консервативные гидрофобные ядра занимают большую часть молекулы. Интересно отметить, что одно из ядер визуально распалось на две субъединицы. Это означает, что обе они всегда входят в состав одного и того же гидрофобного ядра индивидуальных структур, но гидрофобная перемычка между ними неконсервативна. Иначе говоря, в разных белках эти гидрофобные субъединицы соединяются друг с другом разными остатками в разных местах.
Во втором примере рассматриваемый домен является бета-тяжевым. В данном случае индивидуальная структура имела два больших гидрофобных ядра, занимающих почти все пространство белка. Эти два ядра разделены бета-листом. Консервативная часть также состоит из двух гидрофобных ядер, которые занимают примерно треть объема белка.
В последнем случае большое гидрофобное ядро индивидуальной структуры распалось на три достаточно маленьких консервативных ядра, которые к тому же занимают очень небольшую часть белка. Биологический смысл найденных консервативных ядер не очень понятен, поэтому пример рассматривается как случай неудачного применения программы.
В заключение необходимо отметить следующее. В биоинформатике направление, касающееся исследования консервативных гидрофобных кластеров, развито очень мало. Предлагаемая для их выявления программа, насколько известно авторам, является уникальной в своем роде. Рассмотренные в рамках данного проекта семейства позволяют надеяться, что сравнительный анализ консервативных гидрофобных ядер и гидрофобных ядер индивидуальных доменов может дать биологически осмысленную информацию.
Авторы стремились исследовать домены с различным строением; пока непонятно, насколько размеры и число консервативных гидрофобных кластеров обусловлены расстоянием между последовательностями, а насколько – особенностями строения доменов. Для выяснения этого необходимо больше примеров применения программы.
Как правило, каждый домен имеет свое гидрофобное ядро. Поэтому белок, состоящий из нескольких слившихся в ходе эволюции доменов, может иметь несколько гидрофобных ядер. Иногда эти ядра заметны при анализе индивидуальной структуры, а иногда они сливаются в одно большое гидрофобное ядро, и тогда его разделение на несколько консервативных гидрофобных ядер может свидетельствовать об изначальной субдоменной структуре укладки белка.
Программа Conclus может оказаться полезной в исследовании ранних интермедиатов процесса укладки белковой глобулы. В статье [3] утверждается, что интермедиаты можно выявить как самые плотные участки молекулы. Однако авторам представляется более логичным утверждение, что интермедиаты как наиболее важные части для укладки глобулы должны состоять из самых консервативных участков.
Литература
1. Финкельштейн А.В., Птицын О.Б. Физика белка: курс лекций с цвет. и стереоскоп. ил. М.: Книж. дом «Университет», 2002.
2. Swindells M.B. A procedure for the automatic determination of hydrophobic cores in protein structures. Protein Sci. 1995. № 4, pp. 93–102.
3. Zehfus M.H. Automatic recognition of hydrophobic clusters and their correlation with protein folding units. Protein Sci. 1995. № 4, pp. 1188–1202.
4. Alexeevski A. [et al.]. CluD, a program for determination of hydrophobic clusters in 3D structures of protein and protein-nucleic acids complexes. Biophysics (Moscow). 2004. Vol. 48 (Suppl), pp. 1–146.
5. Needleman S.B. and Wunsch C.D. A general method applicable to the search for similarities in the amino acid sequence of two proteins // Journal of Molecular Biology. 1970. № 48 (3), pp. 443–453.