Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Генная инженерия теория.docx
Скачиваний:
61
Добавлен:
08.09.2023
Размер:
422.42 Кб
Скачать

28. Использование для анализа баз данных днк и белковых последовательностей (GenBank, embl, fasta, pir и т.П.)

Ответ. Выявление и анализ закодированных в последовательностях функциональных сигналов требует применения современных методов информатики – качественных баз данных с современными средствами управления, новейших методов распознавания образов, статистических исследований, применения специальных алгоритмов для преодоления возникающих вычислительных трудностей. В банке в доступном для пользователя виде хранится каждая расшифрованная последовательность и ее паспорт, в котором указаны различные сведения о ней. Это сведения об организме, из которого выделена последовательность, о документе, где она описана, о расположении на ней регуляторных участков и белках, которые она кодирует и т.д. Кроме построения филогенетических древ геномов вирусов компьютерный анализ применяется при поиске гомологий, распознавании кодирующих областей, функциональных сигналов, физическом (рестрикционном) картировании молекул ДНК и для предсказания вторичных структур РНК. Все программы условно делятся на два класса: общего назначения и специального. Первые осуществляют ряд_ наиболее распространенных операций по сбору и анализу последовательностей и позволяют: вводить и редактировать новые последовательности, считывать с помощью сканирующих устройств информацию непосредственно с автографов или гелей, находить участки узнавания эндонуклеаз рестрикции и представлять результаты в удобном (табличном или графическом) виде, находить участки с элементами поворотной и зеркальной симметрии (палиндромы), транслировать нуклеотидную последовательность в белковую во всех трех рамках считывания, сравнивать две последовательности методом точечных матриц гомологии, сравнивать новую последовательность со всеми данными ГенБанка, находить участки, обогащенные теми или иными нуклеотидами, вычислять гипотетическую температуру плавления ДНК, осуществлять автоматическую сборку секвенированных фрагментов в единую структуру - молекулу ДНК, транслировать белковую последовательность в нуклеотидную с учетом неравномерности использования кодонов-синонимов, определять молекулярную массу НК и белков, предсказывать вторичную структуру белков, вычислять свободную энергию образования шпилек и др. Молекулярная база данных – это коллекция данных (последовательностей), которые упорядочены, аннотированы, индексирован (приспособлены к поиску), регулярно обновляются, имеют перекрестные ссылки, обеспечивают взрывоопасный рост объема информации. Многие экспериментальные данные не публикуются в литературе, их можно найти только в базе данных. В настоящее время созданы три большие базы данных последовательностей нуклеиновых кислот: "Genbank" (Лос-Аламос, США – более 30 млн. нуклеотидов), база данных нуклеотидных последовательностей Европейской молекулярно-биологической лаборатории (EMBL, Гейдельберг, ФРГ – более 30 млн. нуклеотидов) и "Генэкспресс" (СССР, ВИНИТИ-ИМГ АН СССР – более 11 млн. нуклеотидов). Известны также несколько белковых баз данных, наиболее представительной из которой является MBRF-PIR (США). GenBank – основная нуклеотидная база данных, находящаяся в открытом доступе, содержащая все аннотированные последовательности ДНК и РНК, а также последовательности закодированных в них белков. GenBank поддерживается Национальным центром биотехнологической информации США, входящего в состав Национальных Институтов Здоровья в США, и доступен на бесплатной основе исследователям всего мира. GenBank получает и объединяет данные, полученные в разных лабораториях, для более чем 100000 различных организмов. GenBank – архивная база данных, то есть ответственность за содержимое каждой записи несут создатели этой записи, которыми, как правило, являются экспериментаторы, определившие данную последовательность. GenBank вместе с банками EMBL и DDBJ входит в консорциум INSDC, осуществляющий регулярный обмен данными между этими тремя архивами аннотированных нуклеотидных последовательностей. Европейская молекулярно-биологическая лаборатория (англ. European Molecular Biology Laboratory, EMBL) – фундаментальный научноисследовательский институт, который финансируется из средств, выделяемых двадцатью странами-участниками и страной-партнером Австралией. Лаборатория была основана в 1974 году. Научную деятельность в EMBL ведут около 85 независимых групп, которые покрывают все области молекулярной биологии. Лаборатория состоит из пяти отделений: главная лаборатория в Гейдельберге (Германия), филиалы в Гренобле (Франция), Гамбурге (Германия), Монтерондо (пригород Рима, Италия) и Европейский Институт Биоинформатики в Хинкстоне (близ Кембриджа, Великобритания). Краеугольными камнями EMBL являются следующие направления деятельности: фундаментальные исследования в области молекулярной биологии; подготовка высококвалифицированных научных кадров на всех уровнях вузовского и послевузовского образования. Около 210 аспирантов обучаются по международной программе PhD; обеспечение исследований биологических материалов для ученых из стран-участников; разработка новых приборов и методов биологических исследований и активное участие в распространении новых технологий, в продвижении практического применения результатов исследований и разработок. Кроме того, EMBL способствует пропаганде и популяризации новейших достижений биологической науки через различные публичные мероприятия, такие как публичный лекторий, дни открытых дверей и пр. Лаборатория поддерживает и развивает связи с многими академическими институтами, научными обществами и ассоциациями. BLAST (англ. Basic Local Alignment Search Tool) – семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или еѐ фрагмент. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с последовательностями из базы данных и найти последовательности предполагаемых гомологов. Является важнейшим инструментом для молекулярных биологов, биоинформатиков, систематиков. FASTA. В биоинформатике FASTA-формат представляет собой текстовый формат для нуклеотидных или полипептидных последовательностей, в котором нуклеотиды или аминокислоты обозначаются при помощи однобуквенных кодов. Данный формат может содержать названия последовательностей и сопутствующие комментарии. Простота FASTA-формата позволяет легко производить различные действия с последовательностями при помощи инструментов редактирования текста и скриптовых языков программирования. Форматы FASTA и FASTQ (Sanger Institute) наиболее популярны для представления генетических данных. Иногда также используется более подробный формат GenBank и PDB.

Соседние файлы в предмете Генная инженерия