Конкин. Биоинформатика (2015)
.pdfБионформационные базы данных и биоинформационные программы
Базы данных NCBI , SNPForID, PUBMED/MEDLINE. Методы доступа. Инструменты обработки. Нахождение надежных диагностических исследований. Извлечение информации о генетических ассоциациях. Основные биоинформационные программы BLAST, DnaSP, MEGA и т.д. Функции, возможности и ограничения.
Этапы развития биоинформатики
Год |
Технология |
Биоинформатика |
1962 |
|
Молекулярные часы |
1965 |
Секвенирование tRNA |
Базы данных PIR |
1970 |
Обратная транскрипция |
Алгоритм выраванивания NW |
1972 |
Клонирование |
|
1977 |
Секвенирование |
База данных PDB |
1980 |
|
Базы данных нукл последовательностей |
1981 |
|
Алгоритм выраванивания SW |
1982 |
Секвенирования ДНК |
|
1983 |
PCR |
Алгоритм поиска по базе данных WL |
1985 |
Секвенирование ДНК вирусов |
FASTA-поиск по базе данных |
1987 |
|
GeneBank. Профили |
|
|
Swiss-Prot. NCBI - базы данных белковых |
1989 |
Программа “Геном человека” |
последовательностей |
1992 |
Первая хромосома дрожжей |
BLOSSUM |
1993 |
Автоматическое секвенирование |
|
1995 |
Первый геном бактерии |
База данных SCOP |
1997 |
Расшифрован геном кишечной палочки. |
|
|
Опубликована последовательность первой |
|
1999 |
хромосомы человека |
PSI-BLAST. Кластеры ортологичных генов |
2000 |
Секвенированы геномы ряда организмов |
|
2001 |
Геном человека |
|
Современное состояние
2003 г. – Выпущена первая версия ArrayExpress – базы данных по экспрессии генов, для получения данных о которых использовались микрочипы.
2010 г. – Выпущена первая версия Gene Expression Atlas – базы данных по экспрессии генов в различных биологических условиях (части организма, стадии болезни и тд). Gene Expression Atlas представляет собой статистическое дополнение к подмножеству курированных и аннотированных данных ArrayExpress.
Ведутся активные работы по разработке онтологии экспериментальных факторов (Experimantal Factor Ontology, EFO). Данная онтология широко используется для в Gene Expression Atlas и других базах данных.
2011 г. – В каждой из баз данных начинаются работы по обработке данных секвенирования, полученных технологией HTS (High Throughput Sequencing). Для упорядочивания данных обо всех сэмплах, находящихся в базах EBI, начинаются работы по базе данных BioSample.
2012 г. – Обновление Gene Expression Atlas, в котором, в частности, решается задача интеграции географически распределенных баз данных.
Проект ENCODE
ENCODE («Энциклопедия ДНК элементов») предоставляет информацию о том, где белки связываются с ДНК и где участки ДНК увеличиваются за счёт дополнительных маркеров.
Цель - описать все последовательности генома человека, обладающие той или иной функцией.
0.0001 генома человека
Рост объема генетической
информации
Динамика роста объем базы данных EMBL и PUBMED
Виды баз данных биоинформатики
1.Архивные базы данных. Неструктурированная информация, автономные источники данных, потенциальное наличие ошибок
•GeneBank & EMBL – первичные последовательности
•PDB – пространственные структуры белков
2.Курируемые базы данных. За достоверностью данных следит эксперт
•SwissProt – наиболее качественная база данных, содержащая аминокислотные последовательности белков
•KEGG – информация о метаболизме
•FlyBase – информация о Drosophila
•COG – информация об ортологичных генах.
3.Производные базы данных. Такие базы получаются в результате обработки
данных из архивных и курируемых баз данных
•SCOP – База данных структурной классификации белков (описывается структура белков)
•PFAM – База данных по семействам белков
•GO (Gene Ontology) – Классификация генов (попытка создания набора
терминов, упорядочивания терминологии, чтобы один ген не назывался
по разному, и чтобы разным генам не давали одинаковые названия)
•ProDom – белковые домены
•AsMamDB – альтернативный сплайсинг у млекопитающих
Инструменты поиска публикаций
Поиск публикаций:
•Google Scholar
•PUBMED
•MOLBIOL.RU
•чтение и хранение MENDELEY
National Center for Biotechnology Information