Добавил:
chemist5734494@gmail.com Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

учебники / А,Н.Огурцов основы биоинформатики

.pdf
Скачиваний:
0
Добавлен:
07.04.2024
Размер:
16.07 Mб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ

НАЦИОНАЛЬНЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ «Харьковский политехнический институт»

А. Н. Огурцов

ОСНОВЫ БИОИНФОРМАТИКИ

Учебное пособие по курсам «Биоинформатика и информационная биотехнология» и

«Биоинформатика и фармакоинформатика»

для студентов направления подготовки «Биотехнология», в том числе для иностранных студентов

Утверждено редакционно-издательским советом университета, протокол № 2 от 06.12.2012 г.

Х ар ь ко в НТУ «ХПИ»

2 0 1 3

УДК 577.3 ББК 28.071.3

О-39

Рецензенты:

В. В. Давыдов, д-р. мед. наук, проф., зав. лаб. возрастной эндокринологии

иобмена веществ ГП "Институт охраны здоровья детей

иподростков АМН Украины"

В. В. Россихин, д-р мед. наук, профессор кафедры урологии Харьковской медицинской академии последипломного образования МОЗ Украины

Навчальний посібник містить матеріали з основних питань курсів «Біоінформатика та інформаційна біотехнологія» та «Біоінформатика та фармакоінформатика» відповідно до програми підготовки студентів напряму «Біотехнологія».

Призначено для студентів спеціальностей біотехнологічного профілю всіх форм навчання.

Огурцов А. Н.

О 39 Основы биоинформатики : учеб. пособие / А. Н. Огурцов. – Х. : НТУ «ХПИ», 2013. – 400 с. – На рус. яз.

ISBN 978-617-05-069-4

Учебное пособие содержит материалы по основным вопросам курсов «Биоинформатика и информационная биотехнология» и «Биоинформатика и фармакоинформатика» в соответствии с программой подготовки студентов направления «Биотехнология».

Предназначено для студентов специальностей биотехнологического профиля всех форм обучения.

Ил. 86. Табл. 24.

Библиогр.: 67 назв.

 

УДК 577.352

 

ББК 28.071.3

ISBN 978-617-05-069-4

Огурцов А.Н., 2013

ВВЕДЕНИЕ

Понятие "информация" проникает во все сферы деятельности человека, объединяя их в единый взаимосвязанный и взаимозависимый комплекс. Относительно недавно появился даже термин "инфосфера" – информационные структуры, системы и процессы в науке, обществе и производстве. Вместе с тем до сих пор отсутствует единая точка зрения на предмет информатики, и до сих пор не вполне ясны соотношения между различными информационными дисциплинами, связанными с различными предметными областями.

Интуитивно ясно, что биоинформатика нацелена на использование информации и информационных технологий при исследовании биологических систем. В биоинформатике биология, информатика и математика сливаются в единую дисциплину. В каком-то смысле биоинформатика, изучающая применение информационных технологий для управления биологическими данными, является продолжением вычислительной биологии, изучающей применение методов количественного анализа в моделировании биологических систем.

Интенсивность исследования геномов различных организмов с каждым годом нарастает, ежегодно появляются новые базы данных, в которых хранится информация об исследованных геномах, а уже существующие базы данных непрерывно наращивают свои мощности.

3

Следовательно, с такой же огромной скоростью растёт и объём доступной исследователям биологической информации. Без использования современных информационных технологий уже невозможно ни отыскать, ни обработать ту конкретную биологическую информацию, которая необходима в данном исследовании или в данном биотехнологическом процессе.

В широком смысле биотехнология означает любое производство коммерческих продуктов, образуемых микроорганизмами в результате их жизнедеятельности. Более формально биотехнология определяется как применение научных, инженерных и информационных принципов к переработке материалов живыми организмами с целью создания товаров и услуг.

Успех любой современной биотехнологии – от промышленной, экологической и сельскохозяйственной до фармацевтической и молекулярной – напрямую определяется как эффективностью использования и управления биологической информацией, содержащейся в организмахпродуцентах, так и генерацией новой биологической информации для генетической модификации этих организмов, с целью получения новых, необходимых в конкретном производстве биотехнологических продуктов.

Целью информационной биотехнологии вообще и фармакоинформатики как частного применения информационной биотехнологии для открытия и разработки лекарственных препаратов, является использование существующих и разработка новых компьютерных и информационных ресурсов для анализа и интерпретации биологических данных различного типа (последовательностей ДНК, РНК и белков, пространственных структур РНК и белков, профилей экспрессии, метаболических путей и др.) с целью разработки новых биотехнологических продуктов.

Задачи информационной биотехнологии и фармакоинформатики органично связаны с этапами разработки новых продуктов:

1)анализ организации и эволюции геномов, что является предметом геноинформатики;

2)расшифровка, предсказание структуры и проектирование необходимых белков и белковых комплексов;

4

3)выяснение механизмов действия биологически активных веществ в цепи ген – белок – функция и использование полученной информации как для разработки новых биотехнологий, так и для создания лекарственных препаратов.

Успех в решении этих задач определяется эффективным и комплементарным использованием, наряду с биоинформационными подходами, также и методов таких наук, как геномика (структурная, функциональная, сравнительная, медицинская и т. д.), протеомика (выразительная, цитографическая, структурная, функциональная и т. д.), компьютерная фармакология и токсикология, комбинаторная химия, методики высокопроизводительных отборочных испытаний.

Триединая цель биоинформатики включает в себя:

1)организацию и сохранение биологических данных;

2)разработку программных средств и создание специализированных информационных ресурсов;

3)автоматизацию анализа биологических данных, интерпретацию и использование полученных результатов.

Таким образом, биоинформатика – это наука о хранении, извлечении, организации, анализе, интерпретации и использовании биологической информации.

Современная биоинформатика возникла в конце семидесятых годов двадцатого века одновременно с появлением эффективных методов расшифровки нуклеотидных последовательностей ДНК.

Датой выделения биоинформатики в отдельную научную область можно считать 1980 год, когда началось издание журнала Nucleic Acids Research, целиком посвящённого компьютерным методам анализа последовательностей (см. [1], п. 1.2). Очевидно, не случайно 1980 год считается и годом рождения и молекулярной биотехнологии – 15 октября 1980 г. на Нью-Йоркской фондовой бирже стоимость одной акции биотехнологической компании Genentech, которая первой организовала производство рекомбинантного инсулина человека с помощью Escherichia coli,

5

поднялась с 35 до 89 долларов – это событие принято считать началом биотехнологической революции (см. [4], п. 1.1), в результате чего биотехнология вместе с информационными технологиями и нанотехнологией составили "технологическую триаду" цивилизационного развития человечества в ХХI веке (см. [5], разд. 1) .

Важной вехой в становлении и развитии биоинформатики стал

проект по секвенированию генома человека. Именно с этого времени биоинформатика перестала быть только вспомогательным инструментом. Переход к обработке, анализу и сравнению полных геномов организмов был невозможен без использования компьютерных методов информационного анализа, в результате эти исследования оформились в самостоятельное научное направление. Геномы содержат огромное количество генов, многие из которых до настоящего времени не идентифицированы экспериментально.

Поскольку технологии чтения генетической информации невозможны без использования компьютерной техники и вычислительных методов, то возникновение и интенсивное развитие биоинформатики происходило синхронно с возникновением и повсеместным распространением компьютерных технологий. Это является лишним подтверждением того факта, что глубина научного знания чрезвычайно сильно зависит от технических возможностей.

Другой важнейшей вехой в развитии биоинформатики стало возникновение всемирной сети Интернет и повсеместное распространение интернет-технологий. Сегодня уже нет необходимости разрабатывать программные продукты в каждой исследовательской лаборатории, поскольку большое число разнообразных баз данных и программных инструментов сегодня доступны через Интернет. Биоинформатика, пожалуй, является одной из тех областей науки, которые в очень большой степени зависимы от Интернета и успешно развиваются благодаря Интернету. Именно очень важное для биологии и медицины политическое решение об открытости сложнейшего биологического текста современности – генома человека – сделало эту информацию по-настоящему доступной для учёных всего мира лишь благодаря Интернету.

6

Сегодня мы находимся на начальном этапе использования генетической информации о живой материи, однако развитие всё более эффективных методов расшифровки биологических текстов и разработка методов биоинформатики позволяет надеяться на серьёзный прогресс в понимании строения, механизмов функционирования и регуляции живых систем. В результате становится возможным изучение и понимание всё более сложных биологических систем, появляется возможность их системного исследования, установления эволюционных связей в живой природе, создания новых лекарственных препаратов, методов лечения и новых биотехнологий.

Предметом учебных дисциплин "Биоинформатика и информационная биотехнология" и "Биоинформатика и фармакоинформатика" являются компьютерно-ориентированные методы решения информационных задач в области промышленной и фармацевтической биотехнологий. Научную основу курсов составляют молекулярная биофизика, молекулярная биология и общая и молекулярная генетика.

Методическими основами курса являются лекции, в которых излагаются основные положения каждого раздела, практические занятия и самостоятельная работа студентов, являющаяся основным способом усвоения материала в свободное от аудиторных занятий время.

Для самостоятельной работы выделяется больше половины общего объёма времени, предназначенного для изучения данной дисциплины. Самостоятельная работа проводится по всем темам, входящим в дисциплину. В процессе самостоятельной работы студент учится самостоятельно приобретать знания, которые затем используются в ходе выполнения индивидуального задания, практических занятий, при подготовке к выполнению контрольных работ и к экзамену.

Настоящее пособие подготовлено на основе исправленных и дополненных пособий [1–3] и адаптированных работ [4–67], послуживших также источником иллюстраций, таким образом, чтобы максимально облегчить усвоение курсов "Биоинформатика и информационная биотехнология" и "Биоинформатика и фармакоинформатика" студентам направления подготовки "Биотехнология".

7

РАЗДЕЛ 1 ОСНОВАНИЯ БИОИНФОРМАТИКИ

Глава 1 Предмет биоинформатики

1.1. ОСОБЕННОСТЬ БИОИНФОРМАЦИОННЫХ ДАННЫХ

Биологию традиционно считают описательной, а не аналитической наукой. Несмотря на то, что последние успехи науки не изменили это основное направление, радикально изменилась сущность биологических данных.

До последнего времени все биологические наблюдения носили в основном случайный характер, правда, с различным уровнем точности и некоторые были проведены действительно с очень хорошим качеством.

Первая особенность биологических данных последнего поколения исследований состоит в том, что данные стали не только количественными и более точными, но, как в случае нуклеотидных и аминокислотных последовательностей, они стали дискретными.

Расшифровать геномную последовательность индивидуального организма или клона стало возможным не только полностью, но и, что принципиально, точно. Ошибки эксперимента никогда не могут быть полностью исключены, но для современного секвенирования генома они чрезвычайно низки.

8

Это не означает, что биология стала аналитической наукой. Жизнь действительно подчиняется законам физики и химии, но она слишком сложна и зависима от цепи исторических случайностей, чтобы сегодня можно было бы детально объяснить её свойства, исходя из фундаментальных принципов. А достигнутая точность фиксации геномов не является достаточным условием для объяснения явления жизни.

Вторая очевидная особенность биоинформационных данных – это их огромное количество. Сейчас банки данных нуклеотидных последовательностей содержат около 100 млрд. нуклеиновых пар оснований. Если мы возьмем в качестве единицы измерения размер генома человека (HUman Genome Equivalent, HUGE), то этот объём информации эквивалентен 35 HUGE. База данных только белковых структур содержит более 86 000 записей, каждая из которых является полным описанием координат ~400 аминокислотных остатков данного белка в трёхмерном пространстве (рисунок 1) – http://www.pdb.org/.

Рисунок 1 – Веб-страница Банка белковых данных PDB

Огромны не только размеры отдельных банков данных, но и экспоненциальные темпы их увеличения. Так, например, в таблице 1 представлена динамика заполнения базы данных генетических последовательностей GenBank, http://www.ncbi.nlm.nih.gov/genbank/. А на рисунке 2 эти данные представлены в графическом виде.

Такое количество и качество биологических данных стимулирует исследователей к достижению следующих целей:

9

Увидеть картину мира живых существ чётко и целиком, то есть понять интегрирующие аспекты биологии организмов, рассматриваемых как согласованные комплексные системы.

Связать между собой последовательность, трёхмерную структуру, взаимодействия и функции отдельных белков, нуклеиновых кислот и их комплексов.

Использовать данные о современных организмах как основу для

изучения организмов во времени:

назад в прошлое, чтобы вычислить последовательность событий в эволюционной истории (филогенетический анализ),

вперёд к научно обоснованной модификации биологических систем (биотехнология).

Способствовать применению этих знаний в медицине, сельском хозяйстве и других областях.

Таблица 1 – Динамика роста базы данных GenBank

 

Число пар

Число

 

Число пар

Число

Год

последова-

Год

последова-

оснований

оснований

 

тельностей

 

тельностей

 

 

 

 

1982

680 338

606

1996

651 972 984

1 021 211

 

 

 

 

 

 

1983

2 274 029

2 427

1997

1 160 300 687

1 765 847

 

 

 

 

 

 

1984

3 368 765

4 175

1998

2 008 761 784

2 837 897

 

 

 

 

 

 

1985

5 204 420

5 700

1999

3 841 163 011

4 864 570

 

 

 

 

 

 

1986

9 615 371

9 978

2000

11 101 066 288

10 106 023

 

 

 

 

 

 

1987

15 514 776

14 584

2001

15 849 921 438

14 976 310

 

 

 

 

 

 

1988

23 800 000

20 579

2002

28 507 990 166

22 318 883

 

 

 

 

 

 

1989

34,762 585

28 791

2003

36 553 368 485

30 968 418

 

 

 

 

 

 

1990

49 179 285

39 533

2004

44 575 745 176

40 604 319

 

 

 

 

 

 

1991

71 947 426

55 627

2005

56 037 734 462

52 016 762

 

 

 

 

 

 

1993

157 152 442

143 492

2006

69 019 290 705

64 893 747

 

 

 

 

 

 

1994

217 102 462

215 273

2007

83 874 179 730

80 388 382

 

 

 

 

 

 

1995

384 939 485

555 694

2008

99 116 431 942

98 868 465

 

 

 

 

 

 

 

 

 

10

 

 

Рисунок 2 – Динамика заполнения базы данных GenBank генетических последовательностей http://www.ncbi.nlm.nih.gov/genbank/genbankstats-2008/

Молекула ДНК состоит из тысяч нуклеотидов, и поэтому определение полной последовательности нуклеотидов целой молекулы хромосомной ДНК представляет собой весьма сложную задачу (см. [6], п. 5). С появлением технологии клонирования генов и полимеразной цепной реакции (ПЦР) учёные получили возможность выделять отдельные фрагменты хромосомной ДНК (см. [7], п. 11). Эти достижения, в свою очередь, проложили путь к развитию быстрых и эффективных методов

секвенирования ДНК.

В конце 70-х годов ХХ века появились два метода секвенирования, основанные, соответственно, на реакциях обрыва цепи и химического расщепления. Эти методы с некоторыми незначительными видо-

11

изменениями заложили основу для революции секвенирования 80-х и 90-х годов и последующего рождения биоинформатики.

Благодаря своей чувствительности, специфичности и возможности автоматизации, ПЦР считается передовым методом анализа образцов геномной ДНК и построения генетических карт. Последующие усовершенствования базовой технологии ПЦР дополнительно увеличили мощность и практическую ценность этой методики.

Ещё в начале 80-х годов ХХ века исследователи вручную (с помощью электронных самописцев) считывали последовательности ДНК с картины полос на гель-плёнке. В 1987 году Стивен Кравец (Stephen A. Krawetz) разработал первое программное обеспечение для устройств автоматического считывания информации с гелиевых плёнок.

С момента получения в 1987 году первой последовательности, секвенированной полуавтоматическим методом, практической реализации ПЦР в 1990 г. и внедрения способа флуоресцентного мечения фрагментов ДНК, производимых методом полимерного копирования по Сангеру (см. [7], п. 11.2), было осуществлено крупномасштабное секвенирование, внесшее неоценимый вклад в развитие биоинформатики. Одновременно значительное развитие получили технологии автоматизированной регистрации результатов секвенирования последовательностей.

В начале 90-х годов Крейг Вентер (John Craig Venter) с сотрудниками изобрёл новый метод определения генов. Вместо того чтобы секвенировать хромосомную ДНК с предельным разрешением в один нуклеотид, группа Вентера выделила молекулы мРНК, копировала их в молекулы кДНК и затем секвенировала некоторую часть молекулы кДНК, в результате чего были созданы ярлыки экспрессируемых последовательностей (expressed sequence tags, EST, термин, впервые предложенный Энтони Керлавейдж (Anthony Kerlavage).

Эти EST-последовательности могли быть использованы в качестве указателей (идентификаторов, "отпечатков пальцев") для выделения целого гена. Кроме того, подход с применением ярлыков EST повлек за собой организацию огромных баз данных нуклеотидных последовательностей и, как полагают, развитие метода EST показало осуществимость

12

проектов высокопроизводительного обнаружения новых генов и явилось ключевым толчком для развития прикладной геномики.

В80-х годах ХХ века начался ряд проектов по созданию подробных генетических и физических карт генома человека (рисунок 3). Цель этих проектов состояла в расшифровке полной последовательности нуклеотидов генома человека и в определении локусов (фиксированных положений, локализации на хромосоме) предполагаемых 30 000 генов. Работа столь большого размаха стимулировала развитие новых вычислительных методов анализа генетических карт и данных секвенирования последовательностей ДНК, а также потребовала разработки новых методов и лабораторного оборудования для расшифровки и анализа ДНК.

Для максимально быстрого ознакомления широкого круга исследователей с результатами расшифровки потребовалось разработать усовершенствованные средства распространения полученной информации.

Международную научно-исследовательскую программу, явившуюся результатом этой глобальной инициативы, назвали проектом "Геном человека" (Human Genome Project, HGP). Более подробную информацию об этом и других проектах расшифровки геномов можно получить по адресам:

http://genomics.energy.gov/;

http://ornl.gov/sci/techresources/Human_Genome/publicat/tko/index.html;

http://www.geneontology.org/GO.refgenome.shtml;

http://www.genome.gov/.

В2007 г. начат проект "1000 геномов" (The 1000 Genome Project) http://www.1000genomes.org – расшифровка полных геномов 1000 человек, каждый содержащий 6 Гига-пар оснований (6 Gbp), а всего 6 Терапар оснований (6 Tbp) [56]. К марту 2012 г. полное описание расшифрованных генов составило более 250 000 файлов объёмом более 260 Терабайт. Для этого проекта был создан Центр координации данных (DCC, Data Coordination Center) и были разработаны технологии секвенирова-

ния нового поколения (Next-generation sequencing (NGS) technologies) [57],

которые снизили стоимость секвенирования одного генома до US$5000.

13

а

б

в

г

Рисунок 3 – Веб-страницы геномных проектов: а – Геномной программы Департамента Энергии США; б – To Know Ourselves; в – Проект аннотации геномов; г – Национальный институт исследования генома человека

14

1.2. ЦЕЛИ И ЗАДАЧИ БИОИНФОРМАТИКИ

Основополагающий принцип биоинформатики состоит в том, что биополимеры, например, молекулы нуклеиновых кислот и белков, могут быть изображены в виде последовательности цифровых символов. Кроме того, для представления мономеров аминокислотных и нуклеотидных цепей необходимо лишь ограниченное число алфавитных знаков.

Подобная гибкость анализа биомолекул с помощью ограниченных алфавитов привела к успешному становлению биоинформатики. Развитие и функциональная мощь биоинформатики во многом зависят от прогресса в области разработки компьютерных аппаратных средств и программного обеспечения. Простейшие задачи, стоящие перед биоинформатикой, касаются создания и ведения баз данных биологической информации.

Предмет биоинформатики включает в себя три компонента:

1)создание баз данных, позволяющих осуществлять хранение крупных наборов биологических данных и управление ими;

2)разработка алгоритмов и методов статистического анализа для определения отношений между элементами баз данных;

3)использование этих средств для анализа и интерпретации биологических данных различного типа – в частности, последовательностей ДНК, РНК и белков, белковых структур, профилей экспрессии генов и биохимических путей.

Цели биоинформатики следующие:

1.Организовывать данные таким образом, чтобы исследователи имели доступ к текущей информации, хранящейся в базах данных, и могли вносить в неё новые записи по мере получения новых сведений.

2.Развивать программные средства и информационные ресурсы, которые помогают в управлении данными и в их анализе.

3.Применять эти средства для анализа данных и интерпретации полученных результатов таким образом, чтобы они имели биологический смысл.

15

Задачи биоинформатики состоят в анализе информации, закодированной в биологических последовательностях, в частности:

обнаруживать гены в последовательностях ДНК различных организмов;

развивать методы изучения структуры и (или) функции новых расшифрованных последовательностей и соответствующих структурных областей РНК;

определять семейства родственных последовательностей и строить модели;

выравнивать подобные последовательности и восстанавливать филогенетические деревья с целью выявления эволюционных связей.

Помимо перечисленных выше задач, следует упомянуть ещё один важнейший вопрос биоинформатики, который напрямую связан с фармацевтической биотехнологией, – обнаружение мишеней для медикаментозного воздействия (см. п. 6.6) и отыскание перспективных опытных соединений (так называемых "лидов" (от англ. lead compound))

(см. п. 15.3).

Предмет биоинформатики реализуется в следующих видах деятельности.

1.Управление биологическими данными и их обработка; сюда входит их организация, отслеживание, защита, анализ и т. д.

2.Организация связи между учёными, проектами и учреждениями, вовлечёнными в фундаментальные и прикладные биологические исследования. Связь может включать в себя электронную почту, пересылку файлов, дистанционный вход в систему, телеконференции, учреждение сетевых информационных ресурсов.

3.Организация наборов биологической информации, документов и литературы, а также обеспечение доступа к ним, их поиска и выборки.

16

4.Анализ и интерпретация биологических данных с применением вычислительных методов, а именно: визуализация, математическое моделирование, а также построение алгоритмов высокопараллельной обработки сложных биологических структур.

1.3. ПЕРСПЕКТИВЫ ПРИМЕНЕНИЯ БИОИНФОРМАТИКИ

Помимо обеспечения исследователей, изучающих белки и ДНК, теоретической базой и вычислительно-аналитическим аппаратом, биоинформатика нашла применение во многих областях.

В расшифровке смыслового содержания биологических последовательностей наметились два различных аналитических направления:

согласно первому подходу, учёные опираются на методы распознавания регулярных комбинаций, посредством которых обнаруживают подобие последовательностей и, следовательно, выявляют эволюционно связанные структуры и функции;

согласно второму подходу, используют методы предсказания ab initio (с самого начала, из первых принципов) – для прогнозирования третичных структур и, в конечном счёте, выведения функции непосредственно по первичной последовательности. Прямое предсказание трёхмерной структуры белка по его первичной последовательности аминокислот – важнейшая цель биоинформатики.

Анализ гомологичности последовательностей. Одна из движу-

щих сил биоинформатики – поиск подобий между различными биомолекулами. Помимо систематической организации данных, идентификация белковых гомологов имеет прямое практическое применение. Теоретические модели белков обычно основаны на структурах близких гомологов, определённых опытным путём.

Всякий раз, когда ощущается недостаток биохимических или структурных данных, исследования могут быть выполнены на низших эукариотах, например, на дрожжеподобных организмах, а результаты

17