Биоинформатика. Поиск гомологов в базах данных. (Тема 5) презентация

Содержание

Слайд 2

Поиск гомологов в базах даных

BLAST
FASTA

Слайд 3

При аналізі первинних структур процедура вирівнювання виявляє сходство між послідовностями (sequence similarity), яке

може свідчити про гомологію (homology), тобто еволюційну спорідненість макромолекул.

Основний спосіб визначити схожість двох послідовностей - вирівняти їх

Геп – пропуск в
послідовності

>EC_Tr : MQNRLTIKDIARLSGVGKSTVSRVLNNE---YR
>EC_Fr : ----MKLDEIARLAGVSRTTASYVINGKAKQYR

Слайд 4

Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка).
Признаки гомологичности белков
сходная 3D-структура


в той или иной степени похожая аминокислотная последовательность
разные другие соображения…

Слайд 5

Что изображено?

Название последовательности

Номер столбца выравнивания

Номер последнего в строке остатка ИЗ ЭТОЙ ПОСЛЕДОВАТЕЛЬНОСТИ

Консервативный остаток

Функционально

консервативная позиция

Слайд 6

«Идеальное» выравнивание – запись последовательностей одна под другой так, чтобы гомологичные фрагменты оказались

друг под другом.
домовой скупидом водомерка ?
лесовоз ---лесо---воз ледоход лед---оход---

?

Гэп – пропуск в
последовательности

Слайд 8

Ортологи и паралоги

Ортологи – гени з різних організмів, що розійшлися при видоутворенні.
Мається на

увазі, що ортологи мають спільного «предка» і однакову функцію (якщо тиск відбора слабкий, то функція может «плисти»).
Паралоги – гени, що розійшлися при дуплікації («копіюванні»).
Копії гена не зазнавали тиска відбора, а значить, могли змінити функцію.

Слайд 9

BLAST

Что такое выравнивание
Выравнивание 2х последовательностей
BLAST на NCBI:
Что это такое
Как выбрать правильную программу
Как

выбрать правильную базу данных
Как запустить
Как интерпретировать результаты

Слайд 10

Почему нас интересует локальное сходство последовательностей?

Мы верим, что:
1. функцию, структуру и многие другие

свойства белка/ДНК определяет последовательность;
родственные белки имеют похожие свойства
молекулы, похожие по последовательности, похожи и по свойствам
Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную

Слайд 11

Гомологи
Ортологи Паралоги Ксенологи ?

(W.M.Fitch, Syst.Zool.19,99(1970)

Слайд 12

Схожие 3D структуры

Вставка в «синей» последовательности

Слайд 13

Матрицы замен

Матрица 20*20 на пересечении 2х aa их уровень сходства (?):
Похожесть по свойствам

(объем, гидрофильность, заряд и т.д.)
Эволюционное родство – частота замен 1ой aa на другую в изученных белках
2 сорта последних:
РАМ (Point Accepted Mutations) – на выравниваниях очень близких белков (РАМ20 = РАМ^20)
BLOSUM (BLOck Scoring Matrix) – на блоках выравниваний далеких белков (без делеций) (BLOSUM62 – на белках со средним уровнем сходства 62% попарно)

Слайд 14

Делеции/инсерции

Общий штраф
Значительно чаще 1 длинная делеция, чем много коротких => штраф за внесение

делеции + штраф за удлинение делеции

Слайд 15

Типы выравнивания

Локальное – поиск фрагментов наиболее похожих друг на друга
домовой домовой домовой
скупидом водомерка

водомерка
Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару
лесовоз ---лесо---воз ледоход лед---оход---

?

Слайд 16

Критерии качества выравнивания

Количество идентичных (похожих) аминокислот/нуклеотидов
Для белков – более 25% id при

длине > 100 aa
Для ДНК – более 70% id при длине > 100 nt
Длина выравнивания
Вероятность наблюдать такое сходство случайным образом
Зависит от базы данных
Score – общая мера сходства:
Зависит от программы

Слайд 17

Поиск гомологов в базах даных

FASTA (Pearson and Lipman, 1988)
BLAST (Altschul et al., 1990)

Слайд 18

FASTA

1.A lookup table is generated consisting of short stretches of amino acids or

nucleotides from a database. The size of these stretches is determined from the ktup parameter. If ktup ј 3 for a protein search, then the query sequence is examined in blocks of three amino acids against matches of three amino acids found in the lookup table. The FASTA program identifies the 10 highest scoring segments that align for a given ktup.
2. These 10 aligned regions are rescored, allowing for conservative replacements, using a scoring matrix such as PAM250.
3. High-scoring regions are joined together if they are part of the same proteins.
4. FASTA then performs a global (Needleman–Wunsch) or local (Smith– Waterman) alignment on the highest scoring sequences, thus optimizing the alignments of the query sequence with the best database matches. Thus, dynamic programming is applied to the database search in a limited fashion, allowing FASTA to return its results very rapidly because it evaluates only a portion of the potential alignments.

Слайд 19

FASTA

http://www.ebi.ac.uk/Tools/sss/fasta/

Слайд 20

BLAST – Basic Local Alignment and Search Tool

Локальное выравнивание
Главная задача – поиск похожих

последовательностей в базах данных (=> главное достоинство – скорость)
Неточно восстанавливает сходство
Основная программа поиска по БД
Для специализированных БД часто предлагается на сайте БД
Для поиска среди известных последовательностей есть специальные сервера

Слайд 21

Родной BLAST – NCBI (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi)

Слайд 22

Basic Local Alignment Search Tool
Также, как FASTA, требует параметр k (длина слова).
Белки k=

3 letter words
ДНК k= 11 letter words.

Алгоритм BLAST

Слайд 23

1. Поиск идентичных\похожих участков
2. Попытка «удлинить» эти участки насколько возможно (т.е. пока score

растёт)
В результате: High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Слайд 24

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними:
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN

Алгоритм BLAST (шаг 2)

Слайд 25

Blast

Blast – это семейство программ: BlastN, BlastP, BlastX, tBlastN
BlastN - ДНК vs ДНК
BlastP

– белок vs белок
BlastX - translated ДНК vs белок
tBlastN - белок vs translated ДНК

Query: ДНК Белок
Database: ДНК Белок

Слайд 27

Одною з розповсюджених прикладних задач є пошук гомологів відомих білків у повністю розшифрованих

геномах.

пряме співставлення амінокислотної послідовності проти нуклеотидної є неможливим
дві можливі стратегії аналізу

Слайд 28

Стратегія 1

Ми перетворюємо цільову амінокислотну послідовність в набір нуклеотидних послідовностей, згідно стандартного генетичного

коду.
На виході отримуємо величезну купу нуклеотидних послідовностей, кількість яких не може бути спрогнозовано, внаслідок виродженності генетичного коду. Як наслідок, задачу співставлення цього масиву послідовностей з вмістом нуклеотидної бази даних, взагалі не може бути вирішено за розумний проміжок часу

Слайд 29

Стратегія 2

Ми перетворюємо (транслюємо) вміст нуклеотидної бази даних в амінокислотні послідовності.
На виході

отримуємо 6 варіантів на кожну нуклеотидну послідовність, відповідно до кількості можливих рамок зчитування. Таким чином, кількість порівняльних процедур системи замість з неосяжної кількості зменшується до шести, і може бути проведено за розумний проміжок часу, що і виконує програма TBLASTN

Слайд 30

Поиск гомологов

По ДНК или по белку?
Какой поиск предпочтительней?

Слайд 31

ДНК или белок?

Какая последовательность более постоянна в эволюционном плане?
UCAUAC
Or
Serine -Tyrosine

Слайд 32

Генетический код избыточен – почти все аминокислоты кодируются более, чем 1 кодоном (тройка

нуклеотидов)
Последовательность ДНК может меняться, в то время, как последовательность белка остается постоянной.
Ser-Tyr….

UCAUAC

UCUUAC

UCGUAC

U……

Поиск гомологов

Слайд 33

Нуклеотиды – 4-х буквенный алфавит.
Аминокислоты – 20-и буквенный алфавит

Две случайные последовательности ДНК будут

идентичны ~ 25%.
Две случайные белковые последовательности будут идентичны ~ 5%.

Поиск гомологов

Слайд 34

Матрицы для сравнения белков более чувствительны, чем матрицы для ДНК.
Базы данных ДНК

намного больше белковых → будут случайные совпадения.

Поиск гомологов

Слайд 35

Использование белковых последовательностей более предпочтительно при поиске гомологов

Поиск гомологов

Слайд 36

Специализированные инструменты

ДНК:
megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для длинных похожих

последовательностей. Оптимален для поиска хитов в родном геноме или очень близких видах
Discontiguous megaBLAST – аналогично, параметры подобраны для более далеких видов
Белок:
PSI-BLAST (Position-Specific Iterated -BLAST) поиск удаленных белковых гомологов с использованием PSSM (position-specific scoring matrix)
PHI-BLAST (Pattern-Hit Initiated -BLAST) ищет гомологичные белки, удовлетворяющие заданному паттерну

Слайд 37

Специализированные инструменты

ДНК:
megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для длинных похожих

последовательностей. Оптимален для поиска хитов в родном геноме или очень близких видах
Discontiguous megaBLAST – аналогично, параметры подобраны для более далеких видов
Белок:
PSI-BLAST (Position-Specific Iterated -BLAST) поиск удаленных белковых гомологов с использованием PSSM (position-specific scoring matrix)
PHI-BLAST (Pattern-Hit Initiated -BLAST) ищет гомологичные белки, удовлетворяющие заданному паттерну

Слайд 38

Какую программу выбрать?

BLAST

Слайд 39

Стандартный input

Слайд 40

Промежуточная страница - СD

Слайд 41

Output - I

Слайд 42

Output - II

Слайд 43

Output - III

Слайд 44

Output IV

Слайд 45

E-value, bit score

E-value (математическое ожидание, the expectation value) – оценка числа раз наблюдать

хит такого же качества при таком размере базы данных (0 - e-6 – хорошо, > 0.001 - 0.01 – плохо)
Как правило, BLAST недооценивает e-value!

Слайд 47

E-value, bit score
Bit Score – мера статистической значимости (вес – сумма стоимостей всех

точечных замен) выравнивания - меньше 50 – плохо)

Слайд 48

Параметры выравнивания

Матрица:BLOSUM для локального выравнивания обычно лучше, чем PAM
Чем выше номер BLOSUM –

тем строже выравнивание (BLOSUM80 вместо BLOSUM45 – более короткие выравнивания)
РАМ – чем ниже, тем строже
Штрафы за делеции:
Чем больше штраф за внесение, тем короче выравнивания
Меняете матрицу – надо менять и штраф
Чем ниже номер BLOSUM (выше РАМ), тем меньше штраф за внесение делеции
Штраф за удлинение ~10 раз ниже, чем за внесение
Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение
Близкие гомологи – штрафы ближе друг к другу

Слайд 49

Сообщение о параметрах

В конце файла текстовая информация об использованный параметрах:
Использованная матрица замен
Штрафы за

внесение и продление делеции
Дата
Использованная БД
Размер БД
Количество полученных хитов

Слайд 50

Выбор параметров

Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны

хорошо для большинства ситуаций)
Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу

Слайд 51

Какие параметры менять? Фильтрация

Low-complexity region – другой aa-состав
Фильтрация: если Ваш белок содержит большой

регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации
Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную
ДНК – геном-специфичные повторы!

Слайд 52

Параметры output-формата

Количество хитов
Выбор базы данных (организм)
Выбор порога - Expect (если хитов мало, то

можно смотреть на более подозрительные)
Entrez query – ключевые слова (например, “protease AND human”)

Слайд 53

PSI - BLAST

Алгоритм:
Несколько раундов поиска
Первый раунд – просто blastp (BLOSUM62)
Построение PSSM на

основе полученных хитов (можете выбрать те, что надо)
Следующий раунд на основе этой PSSM
Методов итераций, пока множество хитов не перестанет меняться

Слайд 54

PSSM

Portion of a PSSM from a PSI-BLAST search using RBP4 (NP_006735) as a

query. The 199 amino acid residues of the query are represented in rows; the 20 amino acids are in columns. Note that for a given residue such as alanine the score can vary (compare A14, A15, and A16, which receive scores of 3, 2, and 4). The tryptophan in position 40 is invariant in several hundred lipocalins. Compare the score of W40, W3, or W5 (each receives ю12) with W13 (ю7); in the W3, W5, and W40 positions a match is rewarded more highly, and the penalties for mismatches are substantially greater. A PSSM such as this one allows PSI-BLAST to perform with far greater sensitivity than standard blastp searches

Слайд 55

PHI - BLAST

Query – белок + паттерн, которому этот белок удовлетворяет
Пример:
>P28332|ADH6_HUMAN Alcohol dehydrogenase

6 - Homo sapiens (Human)
MSTTGQVIRCKAAILWKPGAPFSIEEVEVAPPKAKEVRIKVVATGLCGTEMKVLGSKHLD LLYPTILGHEGAGIVESIGEGVSTVKPGDKVITLFLPQCGECTSCLNSEGNFCIQFKQSK TQLMSDGTSRFTCKGKSIYHFGNTSTFCEYTVIKEISVAKIDAVAPLEKVCLISCGFSTG FGAAINTAKVTPGSTCAVFGLGGVGLSVVMGCKAAGAARIIGVDVNKEKFKKAQELGATE CLNPQDLKKPIQEVLFDMTDAGIDFCFEAIGNLDVLAAALASCNESYGVCVVVGVLPASV QLKISGQLFFSGRSLKGSVFGGWKSRQHIPKLVADYMAEKLNLDPLITHTLNLDKINEAV
ELMKTGKW
G - H - E - x - {EL} - G - {AP} - x(4) - [GA] - x(2) - [IVSAC]

Слайд 56

НММ-профиль

Hidden Markov models describe alignments based on the probability of amino acids occurring

in an aligned column. This is conceptually related to the position-specific scoring matrix used by PSI-BLAST. (a) An alignment of five globins is shown. The five proteins are a nonsymbiotic plant hemoglobin from rice (Oryza sativa) (1D8U), human neuroglobin (1OJ6A), human beta globin (2hhbB), leghemoglobin from the soybean Glycine max(1FSL), and human myoglobin (2MM1). (b) The probability of each residue occurring in each aligned column of residues is calculated. (c) From these probabilities, a score is derived for any query such as HARTV. Note that the actual score will also account for gaps and other parameters. Also note that this is a position-specific scoring scheme; for example, there is a different probability of the amino acid residue lysine occurring in position 3 versus 4. (d) The probabilities associated with each position of the alignment can be displayed in boxes representing states.

Слайд 57

Пример простого мотива

Слайд 58

Другие программы поиска по БД:
FASTA (www.ebi.ac.uk/fasta33/)
Ssearch (алгоритм Smith-Waterman) (www.ch.embnet.org)
BLAT (genome.ucsc.edu)

Имя файла: Биоинформатика.-Поиск-гомологов-в-базах-данных.-(Тема-5).pptx
Количество просмотров: 87
Количество скачиваний: 0