Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекция_4_БИ_М_2014

.pdf
Скачиваний:
10
Добавлен:
08.03.2016
Размер:
2.02 Mб
Скачать

Выравнивания

Определение

Выравнивание (alignment) – сравнение двух (парный) или нескольких (множественный) последовательностей. Поиск серий идентичных символов в последовательностях

VLSPADKTNVKAAWAKVGAHAAGHG

||| |

|

|||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Первый пример выравнивания белковых последовательностей.

The molecular basis of evolution. 1959 г.

β-corticotropin (sheep) β-corticotropin (beef) Corticotropin A (pig)

25 26 27 28 29 30

ala gly glu asp asp glu ala gly glu asp asp glu asp gly ala glu asp glu

Corticotropins of sheep and beef are identical and differ from that of the pig. This finding is consonant with the closer phylogenetic relationship of sheep and cows to each other than of either to pig” Christian B. Anfinsen (Нобелевский лауреат)

Выравнивание последовательностей: Базовая процедура биоинформатики

Схожи ли два гена (или белка) структурно и функционально?

Используется для поиска консервативных доменов и мотивов

Используется для анализа геномов и транскриптомов

Является основой для поиска BLAST

Редакционное расстояние

Элементарное преобразование последовательности: замена буквы или удаление буквы или вставка буквы.

Редакционное расстояние: минимальное количество элементарных преобразований, переводящих одну последовательность в другую.

Формализация задачи сравнения последовательностей: найти редакционное расстояние и набор преобразований, его реализующий

Процедура выравнивание последовательностей позволяет увидеть зафиксированные в ДНК изменения, происходившие биллионы лет назад

Origin of

Earliest

Origin of

Eukaryote/

Fungi/animal

 

life

fossils

eukaryotes

archaea

Plant/animal

insects

BYA

4

3

2

1

0

Когда вы проводите выравниание гомологичных белков человека и растений, вы исследуете последовательности, общий предок которых жил 1.5 биллиона лет назад!

Multiple sequence alignment of glyceraldehyde 3-phosphate dehydrogenases: example of extremely high conservation

fly

GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA

human

GAKRVIISAP SAD.APM..F VMGVNHEKYD

NSLKIISNAS

CTTNCLAPLA

plant

GAKKVIISAP SAD.APM..F VVGVNEHTYQ

PNMDIVSNAS

CTTNCLAPLA

bacterium GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA

yeast

GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA

archaeon

GADKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA

fly

KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST

human

KVIHDNFGIV EGLMTTVHAI TATQKTVDGP

SGKLWRDGRG

ALQNIIPAST

plant

KVVHEEFGIL EGLMTTVHAT TATQKTVDGP

SMKDWRGGRG

ASQNIIPSST

bacterium KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST

yeast

KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST

archaeon

KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST

fly

GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK

human

GAAKAVGKVI PELNGKLTGM AFRVPTANVS

VVDLTCRLEK

PAKYDDIKKV

plant

GAAKAVGKVL PELNGKLTGM AFRVPTSNVS

VVDLTCRLEK

GASYEDVKAA

bacterium GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA

yeast

GAAKAVGKVL

PELQGKLTGM

AFRVPTVDVS

VVDLTVKLNK

ETTYDEIKKV

archaeon

GAAQAATEVL

PELEGKLDGM

AIRVPVPNGS

ITEFVVDLDD

DVTESDVNAA

Белковые последовательности более информативны для выравнивания

последовательность белка более информативная

(20 vs 4 символа).

Кодоны вырождены: изменения в третьей позиции часто не изменяет аминокислоту, которую он кодирует

Филогенетический анализ с использованием белковых последовательностей позволяет заглянуть дальше в историю

Выравнивание белковых последовательностей не всегда подходит

Для исследования некодирующих РНК

Для исследования мотивов и повторов ДНК

При выравнивания cDNA, результатов секвенирования геномов и транскриптомов

Для поиска полиморфизмов ДНК

Филогении для близких видов и белков с высокой степенью гомологии

Определения: homology, identity, similarity

Homology

Сходство последовательностей, связанное с происхождением от общего предка. Не существует degree of homology: последовательность либо homologs, либо нет!

Для оценки степени гомологии используют:

Identity

The extent to which two (nucleotide or amino acid) sequences are invariant.

Similarity

The extent to which protein sequences are related. It is based upon identity plus conservation.