Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Lection03

.pdf
Скачиваний:
6
Добавлен:
21.05.2015
Размер:
1.57 Mб
Скачать

Лекция 3. Банки биологических данных и форматы данных

Лекция 3.

Банки биологических данных и форматы данных

Шишкина Э. Л.

Воронежский государственный университет

30 сентября 2014 г.

Лекция 3. Банки биологических данных и форматы данных

GenBank

Основным источником генетических данных на данный момент является международная база данных GenBank. База данных открыта для всех и позволяет осуществлять и загрузку и выгрузку данных всеми пользователями. Для поиска и получения данных регистрация необязательна.

Лекция 3. Банки биологических данных и форматы данных

GenBank

Рис. 1. Базы биологических последовательностей.

Лекция 3. Банки биологических данных и форматы данных

GenBank

Адрес:

http://www.ncbi.nlm.nih.gov/Genbank/

GenBank база данных генетических последовательностей, поддерживается NIH (Национальный Институт Здоровья США), аннотированная база известных последовательностей ДНК, РНК и белков, с литературными ссылками на первоисточники и информацией биологического характера.

Лекция 3. Банки биологических данных и форматы данных

Обновляется каждые два месяца. Является частью International Nucleotide Sequence Database Collaboration, которая объединяет три крупнейшие коллекции нуклеотидных последовательностей: DDBJ (NIG), EMBL (EBI) и GenBank (NCBI).

Лекция 3. Банки биологических данных и форматы данных

Крупнейшая интегрированная поисковая система ENTREZ для нуклеотидных и аминокислотных последовательностей, библиографии (PubMed), полных геномов (Genomes), а также трехмерных структур белков (MMDB) создана и поддерживается NCBI. При этом поиск ДНК и белков не ограничивается только ресурсами GenBank, но и другими доступными по сети хранилищами информации.

Лекция 3. Банки биологических данных и форматы данных

Поиск и получение данных из GenBank может осуществляться с помощью нескольких интерфейсов:

Самый простой интерфейс для получения и поиска генетических последовательностей (нуклеотидных, аминокислотных и белковых) называется Entrez Nucleotide. Через этот интерфейс удобно искать последовательности по ключевым словам (например, вид, название гена, год публикации, авторы и т.д.)

Лекция 3. Банки биологических данных и форматы данных

Более комплексный интерфейс BLAST (Basic Local Alignment Search Tool) позволяет искать совпадения на основании непосредственно нуклеотидных последовательностей, а также картировать найденные последовательности и сравнивать степень их совпадения друг с другом.

Лекция 3. Банки биологических данных и форматы данных

Наиболее продвинутый, но в тоже время гибкий, интерфейс доступа к базе NCBI e-utilities. Он позволяет на програмном уровне обратиться к базе данных и получить данные в батч-режиме (много записей единым блоком). Написание скриптов возможно в общем-то на любом языке программирования, но уже доступны библиотеки под Perl (BioPerl), Python (Biopython) и др.

Лекция 3. Банки биологических данных и форматы данных

Все данные в GenBank хранятся в двух основных форматах:

Нативный формат GB (который так и называется genbank),

один из наиболее широко распространенных форматов хранения и передачи генетических данных fasta.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]