КНОРРЕ_3227
.pdf460 |
Глава 20. Биоинформатика |
рагиновая кислота и Е - глутаминовая кислота). Их функция состоит в связы вании с основаниями ДНК. Этот факт можно учесть при формировании пат терна путем явного указания допустимых типов аминокислот в 17-й позиции выравнивания, перечислив их в квадратных скобках ([DE]):
( Паггерн2: X(2)-CO((2’4,5)-C-X(3)-F-X^R-X-[DE]-X-L-X(2)-H-X(3,4)-H 1
Таким образом, паттерн 2 будет более адекватно отражать особенности последовательностей ДНК-связывающего домена С2Н2. Подобные мотивы активных сайтов белков, известных в настоящее время, записаны и аннотиро ваны в базе данных PROSITE (http://au.expasy.org/prosite/). По состоянию на ноябрь 2009 г. PROSITE содержал свыше полутора тысяч описательных за писей и около 1300 паттернов для активных сайтов в последовательностях белков. База данных PROSITE тесно интегрирована с банками данных белко вых последовательностей, все известные в настоящее время белки проверя ются на наличие активных сайтов.
Существует ряд программ, которые позволяют искать в последовательно сти всевозможные активные сайты из базы PROSITE. Одна из таких про грамм - ScanProsite (http://au.expasy.org/tools/scanprosite/). Она также позволя ет проводить поиск мотива, сформированного пользователем самостоятельно, в базе данных аминокислотных последовательностей. Описание базы данных PROSITE можно найти в работе [6].
§20.5. Предсказание вторичной структуры РНК
Внастоящее время разработано несколько программ, доступных через Интернет, которые позволяют рассчитывать модель вторичной структуры РНК. Одной из наиболее популярных является программа MFold (http://frontend.bioinfo.rpi.edu/applications/mfold/). Она позволяет оценивать вторичную структуру РНК методом оптимизации свободной энергии кон формации РНК. Энергия вычисляется на основе термодинамических пара метров, которые соответствуют энергии взаимодействия оснований. Резуль таты расчетов выводятся в текстовом и графическом виде. На вход програм мы подается последовательность нуклеотидов, для которой необходимо оце нить вторичную структуру. Программа позволяет задавать параметры опти мизации, такие как набор ограничений на спаривание тех или иных основа ний в последовательности, цикличность или линейность структуры ДНК/РНК. Предполагается, что формирование пространственной структуры (от англ. folding - укладка) происходит при температуре 37 °С. Результат рас чета вторичной структуры фрагмента матричной РНК белка ТВР человека программой MFOLD показан на рис. 130. Описание работы сервера Mfold представлено в работе [7].
Рис. 130. Пример расчета вторичной структуры первых 714 оснований матричной РНК, кодирующей белок ТВР человека программой Mfold
§ 20.6. Банк данных PDB
Банк данных PDB (Protein Data Bank) является основным источником ин формации о третичных и четвертичных структурах макромолекул, а также
462 |
Глава 20. Биоинформатика |
о структуре их комплексов с малыми молекулами. Этот банк данных поддер живается Исследовательским консорциумом по структурной биологии (RCSB), который объединяет несколько научно-исследовательских организа ций США. Официальные обновления информации происходят ежекварталь но. По состоянию на декабрь 2009 года в PDB содержалось около 60 тысяч структур. Официальный сайт PDB: http://www.pdb.org. Описание банка дан ных PDB можно найти в работе [8].
Запись PDB может содержать как информацию о структуре одной поли пептидной цепи, так и о структуре комплексов, которые включают несколько полипептидных цепей, цепи ДНК, РНК, молекулы ионов, лигандов и других соединений. Часть данных включает координаты атомов молекулы. Они опи саны в строках, имеющих тип АТОМ. Каждый атом в молекуле характеризу ется порядковым номером, названием, мономером и цепью, к которой он от носится, тремя координатами, значением температурного фактора (рис. 131).
Порядковый номер атома Название атома Тип аминокислоты
Индекс полипептидной цепи Номер остатка в полипегггидной цепи
694 |
N |
SER |
Й 159 |
8.3 7 7 |
3.827 |
16.818 |
1..88 |
8 3 .2 |
9 |
N |
|||||
695 |
Cft |
SER |
Й 159 |
8.181 |
4.9 8 2 |
17.697 |
1..88 |
8 3 |
.4 |
0 |
С |
||||
696 |
С |
SER |
Й 159 |
6.9 2 9 |
5 .8 4 9 |
17.255 |
1..88 82.26 |
С |
|||||||
697 |
0 |
SER |
ft 159 |
6.611 |
5 .9 7 9 |
16.863 |
1..88 |
8 3 |
.6 |
4 |
0 |
||||
698 |
СВ |
SER |
ft |
159 |
9 .3 |
6 8 |
5 .8 5 4 |
17.815 |
1..88 |
83 |
.1 |
3 |
С |
||
699 |
0G |
SER |
ft 159 |
18 |
.8 |
79 |
5 .8 8 7 |
16.598 |
1..88 86.81 |
0 |
|||||
70S |
N |
CLV |
ft 168 |
6.2 5 7 |
6.3 9 5 |
1 8.2 |
56 |
1..88 88.81 |
N |
||||||
781 |
СЙ |
6LV |
ft 168 |
5.2 8 9 |
7.345 |
1 7 .9 |
8 8 |
1..88 |
7 7.4 |
7 |
С |
||||
782 |
С |
GLV |
ft 168 |
5.9 8 5 |
8.6 4 8 |
17.888 |
1..88 |
7 2.6 |
5 |
С |
|||||
783 |
0 |
GLV |
ft 168 |
S . 427 |
9.7 5 5 |
17.812 |
1..80 |
7 4 |
.1 |
9 |
0 |
||||
784 |
N |
ILE |
ft 161 |
7 |
.3 |
8 8 |
8 .4 9 8 |
17.662 |
1,.88 |
66 |
.5 |
8 |
Н |
||
785 |
СЙ |
KLE |
ft 161 |
8.22% |
9.5 9 7 |
17.497 |
1..88 61.03 |
С |
|||||||
786 |
С |
ILE |
ft |
161 |
8 .4 |
27 |
9.882 |
16.817 |
1..88 53.81 |
С |
|||||
787 |
0 |
ILE |
ft 161 |
8 .8 |
3 8 |
9.8 1 2 |
15.238 |
1..88 |
52 |
.4 |
9 |
0 |
|||
788 |
СВ |
1LE |
ft 161 |
9 .5 8 7 |
9 .2 8 8 |
18.143 |
1..88 64.83 |
С |
|||||||
789 |
CG1 |
Н Е |
ft 161 |
9.3 |
91 |
8.7 9 3 |
19.584 |
1..80 |
67 .3 4 |
С |
|||||
718 |
СС2 |
ILE |
ft |
161 |
1 8.448 |
18.535 |
18.162 |
1,.88 |
6 7 .2 4 |
С |
|||||
711 |
CD1 |
ILE |
ft |
161 |
8 |
.6 |
58 |
9.741 |
2 8.579 |
1 .88 |
58.4 2 |
С |
|||
712 |
N |
URL |
ft |
162 |
8 |
.1 |
3 8 |
11.114 15.626 |
1,.08 |
58.2 2 |
N |
||||
713 |
СЙ |
UftL |
ft |
162 |
8 |
.2 |
78 |
11.587 14.237 |
1..88 |
4 6 .7 4 |
С |
||||
711* |
С |
UAL |
ft 162 |
9 |
.2 |
67 |
12.655 |
14.869 |
1,.88 |
48.31 |
С |
||||
715 |
0 |
UftL |
ft 162 |
9 |
.1 |
27 |
13.705 14.785 |
1..08 |
36 .8 4 |
0 |
|||||
716 |
СВ |
UAL |
ft 162 |
6 |
.9 |
34 |
11.955 |
13.628 |
1..88 |
49 |
.7 |
1 |
С |
||
717 |
С61 |
UftL |
ft 162 |
7.1 |
86 |
12.226 |
12.139 |
1 .08 |
4 6.43 |
С |
|||||
718 |
CG2 |
UftL |
ft 162 |
5 |
.8 |
77 |
1 8.898 |
13.867 |
1..88 |
5 6 .5 3 |
С |
Координата X
Координата Y
Координата Z Заселенность Температурный фактор Название элемента
Рис. 131. Описание координат атомов аминокислотных остатков 159-162 цепи А (ТВР). Атом характеризуется порядковым номером (первая колонка в строке АТОМ), названием (2 -я колонка), типом мономера (3-я колонка) и индексом цепи, к которой он относится (4-я колонка), тремя координатами X,Y,Z (6 , 7 и 8 -я колонки соответст
венно), значениями заселенности (9-я колонка) и температурным фактором (10-я ко лонка)
§ 20.7. Программы визуализации пространственных структур макромолекул 463
Иногда анализ электронной плотности не позволяет четко идентифициро вать положение атома, тогда может быть приведено несколько его альтерна тивных положений. Заселенность - число от 0 до 1, которое характеризует надежность определения положения атомов. Для большинства атомов в структурах, полученных с высоким разрешением, заселенность равна 1. Температурный фактор - число от 0 до 100, которое характеризует тепловые флуктуации атома. Чем больше это число, тем больше флуктуации. Значение температурного фактора, как правило, больше для атомов боковых групп ос татков, расположенных в петлях и на поверхности белка.
§ 20.7. Программы визуализации пространственных структур макромолекул
В банках данных пространственных структур информация о пространст венных структурах содержится в текстовых файлах в виде списка координат атомов. Поэтому для визуализации этой информации необходимо использо вание дополнительных программ. В настоящее время разработано множество средств визуализации пространственных структур макромолекул, которые можно использовать как на локальных компьютерах, так и через Интернет (JAVA-приложения). Список наиболее популярных программ приведен в табл. 23.
Таблица 23 Программы визуализации пространственных структур макромолекул
Про |
Адрес в Интернет |
Тип программы |
грамма |
http://www.umass.edu/microbio/rasmol/index2 .htm |
|
Rasmol |
Приложение |
|
CN3D |
http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3d.shtmI |
Windows |
Приложение JAVA |
||
Chime |
http://www.umass.edu/microbio/chime/ |
Модуль к Internet |
|
|
Explorer |
Примером программы визуализации структур может служить программа Rasmol (рис. 132). Она является одной из наиболее популярных и доступных. Официальный сайт программы содержит информацию о правилах работы с ней. Программа функционирует в режиме двух окон - графического и тек стового. В графическом окне происходит визуализация структур макромоле кул, в текстовое окно вводится управляющая информация, которая позволяет изменять масштаб рисунка, цвет, представление молекул, выделять группы атомов, остатков, белковых цепей. Управляющие данные вводятся в виде текстовых команд, описание которых приведено на странице помощи. Попу лярность этой программы и доступность ее кодов привела к тому, что на ее
§ 20.7. Программы визуализации пространственных структур макромолекул 465
белка с неизвестной структурой программа ищет гомологичные для него бел ки, структура которых известна в банке данных PDB. Белок с наибольшим сходством является шаблоном для моделирования. Затем производится вы равнивание последовательности искомого белка с последовательностью шаб лона с учетом структурных особенностей последнего. После этого боковые группы остатков шаблона, которые различаются в выровненных позициях шаблона и искомого белка, заменяются на боковые группы аминокислот ис комого белка. В местах структуры, соответствующих делециям или вставкам в выравнивании, достраиваются петли. После этого производится оптимиза ция конформации полученной модели с целью устранения стерически запре щенных состояний, которые могут возникать, например, из-за замены малой боковой группы на большую (Ala —*lie). Полученная в результате оптимиза ции структура выдается пользователю. Такой метод может работать доста точно хорошо, если уровень совпадения последовательности искомого белка и шаблона выше 50 %. В этом случае среднеквадратичное отклонение коор динат С-альфа атомов модели, как правило, не превышает 2.5 А, а в случае высокой гомологии может быть менее 1 А.
Литература
1. Thompson J. D., Higgins D. G. and Gibson T. J. (1994) CLUSTAL W: im proving the sensitivity of progressive multiple sequence alignment through se quence weighting, position-specific gap penalties and weight matrix choice, Nu cleic Acids Research, 22, 4673-4680.
2.Nikolov D. B., Hu S. H., Lin J., Gasch A., Hoffmann A., Horikoshi М., Chua N. H., Roeder R. G., Burley S. K. (1992) Crystal structure of TFIID TATAbox binding protein. Nature, 360,40-46.
3.Koide, R.; Kobayashi, S.; Shimohata, Т.; Ikeuchi, Т.; Maruyama, М.; Saito, М.; Yamada, М.; Takahashi, H.; Tsuji, S. (1999) A neurological disease caused by an expanded CAG trinucleotide repeat in the TATA-binding protein gene: a new polyglutamine disease? Hum. Molec. Genet., 8, 2047-2053.
4.Altschul S. F., Madden T. L., Schaffer A. A., Zhang J., Zhang Z., Miller W., Lipman D. J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res., 25, 3389-3402.
5.Klug A. and Schwabe J. W. (1995) Zinc fingers. The FASEB Journal, 9, 597-604.
6.Hulo N., Bairoch A., Bulliard V., Cerutti L., De Castro E., LangendijkGenevaux P.S., Pagni М., Sigrist CJ. (2006) The PROSITE database. Nucleic Acids Res., 34, D227-D230.
7.Zuker M. (2003) Mfold web server for nucleic acid folding and hybridiza tion prediction. Nucleic Acids Research, 31, 3406-3415.
8.Berman H. М., Westbrook J., Feng Z., Gilliland G., Bhat T: N., Weissig H., Shindyalov I. N., Bourne P. E. (2000) The Protein Data Bank. Nucleic Acids Research, 28,235-242.
Приложение
Реакции, протекающие в живых организмах, по своему химическому со держанию не отличаются от любых реакций органической химии (и от неко торых реакций неорганической химии). Среди этих реакций широко пред ставлены различные кислотно-основные превращения. Для биоорганической химии наиболее существенны понятия о кислотах и основаниях по Бренстеду, т. е. как молекул, способных отдавать протон (кислоты) или принимать протон (основание). В силу обратимости процессов понятие о кислоте и ос новании являются сопряженными - кислота, отдавшая протон, становится сопряженным основанием, а основание, присоединившее протон, становится сопряженной кислотой. Количественной характеристикой сопряженной пары НА/А' является константа равновесия реакции передачи протона от кислоты к молекуле воды, т. е. реакции
НА + Н20 |
А' + Н30 + |
tfa = [A-][H30 +]/[HA]
Причем вместо концентрации воды используется мольная доля, которая для достаточно разбавленных растворов близка к единице. Обычно в качестве характеристики пары приводят не саму константу ионизации, а ее десятич ный логарифм, обозначаемый как рК.
Реакции классифицируются в зависимости от того, сохраняется или раз рывается электронная пара, образующая участвующую в реакции связь. Если пара сохраняется, то процесс называют гетеролитическим. Разрыв связи, со провождающийся переходом пары электронов к одной из образующихся час тиц, называют гетеролизом. Гетеролиз может быть полным или частичным, когда электронная пара сильно смещается к одному из партнеров
s+ |
s |
гетеролиз |
/ 5+ |
! |
s |
\ гетеролиз |
катион |
анион |
А П В |
-------------► A D l Q B |
---------- А +Щ + Ш В - |
|
|||||
|
|
частичный |
А |
! |
А |
ПОЛНЫЙ |
электрофил |
нуклеофил |
|
|
|
т |
|
| |
|
||
|
|
электрофильный |
|
нуклеофильный |
|
|
||
|
|
|
центр |
|
|
центр |
|
|
При полном разрыве на одном из атомов возникает положительный, а на другом - отрицательный. Первая из образовавшихся частиц называтся элек трофилом, а вторая - нуклеофилом. При частичном гетеролизе на одном из атомов возникает электрофильный, а на втором - нуклеофильный центр.
468 |
Пршожение |
выступать как акцепторы электрона (т. е. быть окислителями), либо как до норы электрона (восстановители).
Главным источником радикалов в живых организмах является молеку лярный кислород. Молекула кислорода парамагнитна, так как содержит два неспаренных электрона и представляет собой бирадикал *02*. При неполном восстановлении кислорода образуются различные его активные формы, в том числе и свободные радикалы:
- супероксидный анион-радикал «Ог’
0 2 + е' *02‘
- гидропероксидный радикал Н02*
0 2 + е —> Н02*
- гидроксильный радикал НО*
0 2 + Зе + ЗН+ НО» + Н20
Свободные радикалы образуются при воздействии на водные растворы биполимеров и других соединений проникающей радиации. Первичные про цессы в зависимости от природы облучаемых соединений могут быть раз личны, но наиболее характерным продуктом облучения водных растворов являются радикалы НО*.
Биологическое функционирование белков и нуклеиновых кислот нераз рывно связано с их пространственной структурой. Геометрия любой молеку лы определяется тремя группами геометрических характеристик ее химиче ских связей - длинами всех ковалентных связей, углами между связями, об разуемыми каждым из атомов молекулы, и торсионными углами между свя зями, примыкающими к соседним атомам. Первые две группы характеристик для атомов лежат в достаточно узких пределах и сравнительно мало влияют на геометрию молекулы в целом. Поэтому геометрия макромолекулы в ос новном определяется торсионными углами между атомами остова молекулы. Эти углы определяют взаимное расположение в пространстве четырех сосед них атомов А, В, С и D. Схема определения понятия торсионного угла приве дена на рис. 133.
Торсионным углом называют угол поворота связи A-В вокруг связи В-С относительно связи С-D, т. е. угол между плоскостями, содержащими атомы А, В, С и атомы В, С, D. За ноль принимают угол между указанными плоско стями, если они совпадают, причем связи A-В и С-D расположены по одну сторону от связи В-С. При этом если рассматривать систему атомов вдоль связи В-С, то связь A-В заслоняет связь С-D, в связи с чем такую структуру называют заслоненной. Согласно рекомендациям Международного союза чистой и прикладной химии (IUPAC, International Union of Pure and Applied
469
Chemistry) и Международного союза биохимии (IUB, International Union of Biochemists) торсионный угол между связями A-В и С-D считается положи тельным, если для перевода системы в заслоненную структуру нужно повер нуть связь A-В по часовой стрелке, и соответственно отрицательным, если такой поворот должен быть осуществлен против часовой стрелки. При этом речь идет о поворотах, не превышающих 180° Каждая структура молекулы, характеризующаяся определенным набором величин всех ее торсионных уг лов, называется ее конформацией.
Рис. 133. К определению понятия торсионного угла <р\ а - положительный угол; б - отрицательный угол