Биоинформатика. Поиск гомологов в базах данных. (Тема 5) презентация

Ноябрь 14, 2021

Главная
Биология
Биоинформатика. Поиск гомологов в базах данных. (Тема 5)

Содержание

2. Поиск гомологов в базах даных BLAST FASTA
3. При аналізі первинних структур процедура вирівнювання виявляє сходство між послідовностями (sequence similarity), яке може свідчити про
4. Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура в той
5. Что изображено? Название последовательности Номер столбца выравнивания Номер последнего в строке остатка ИЗ ЭТОЙ ПОСЛЕДОВАТЕЛЬНОСТИ Консервативный
6. «Идеальное» выравнивание – запись последовательностей одна под другой так, чтобы гомологичные фрагменты оказались друг под другом.
8. Ортологи и паралоги Ортологи – гени з різних організмів, що розійшлися при видоутворенні. Мається на увазі,
9. BLAST Что такое выравнивание Выравнивание 2х последовательностей BLAST на NCBI: Что это такое Как выбрать правильную
10. Почему нас интересует локальное сходство последовательностей? Мы верим, что: 1. функцию, структуру и многие другие свойства
11. Гомологи Ортологи Паралоги Ксенологи ? (W.M.Fitch, Syst.Zool.19,99(1970)
12. Схожие 3D структуры Вставка в «синей» последовательности
13. Матрицы замен Матрица 20*20 на пересечении 2х aa их уровень сходства (?): Похожесть по свойствам (объем,
14. Делеции/инсерции Общий штраф Значительно чаще 1 длинная делеция, чем много коротких => штраф за внесение делеции
15. Типы выравнивания Локальное – поиск фрагментов наиболее похожих друг на друга домовой домовой домовой скупидом водомерка
16. Критерии качества выравнивания Количество идентичных (похожих) аминокислот/нуклеотидов Для белков – более 25% id при длине >
17. Поиск гомологов в базах даных FASTA (Pearson and Lipman, 1988) BLAST (Altschul et al., 1990)
18. FASTA 1.A lookup table is generated consisting of short stretches of amino acids or nucleotides from
19. FASTA http://www.ebi.ac.uk/Tools/sss/fasta/
20. BLAST – Basic Local Alignment and Search Tool Локальное выравнивание Главная задача – поиск похожих последовательностей
21. Родной BLAST – NCBI (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi)
22. Basic Local Alignment Search Tool Также, как FASTA, требует параметр k (длина слова). Белки k= 3
23. 1. Поиск идентичных\похожих участков 2. Попытка «удлинить» эти участки насколько возможно (т.е. пока score растёт) В
24. Попытка соединить соседние HSPs путем выравнивания последовательностей между ними: THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD INVIEIAMDEADMEATTNAMHEW___ASNINETEEN Алгоритм BLAST (шаг 2)
25. Blast Blast – это семейство программ: BlastN, BlastP, BlastX, tBlastN BlastN - ДНК vs ДНК BlastP
26. Blast
27. Одною з розповсюджених прикладних задач є пошук гомологів відомих білків у повністю розшифрованих геномах. пряме співставлення
28. Стратегія 1 Ми перетворюємо цільову амінокислотну послідовність в набір нуклеотидних послідовностей, згідно стандартного генетичного коду. На
29. Стратегія 2 Ми перетворюємо (транслюємо) вміст нуклеотидної бази даних в амінокислотні послідовності. На виході отримуємо 6
30. Поиск гомологов По ДНК или по белку? Какой поиск предпочтительней?
31. ДНК или белок? Какая последовательность более постоянна в эволюционном плане? UCAUAC Or Serine -Tyrosine
32. Генетический код избыточен – почти все аминокислоты кодируются более, чем 1 кодоном (тройка нуклеотидов) Последовательность ДНК
33. Нуклеотиды – 4-х буквенный алфавит. Аминокислоты – 20-и буквенный алфавит Две случайные последовательности ДНК будут идентичны
34. Матрицы для сравнения белков более чувствительны, чем матрицы для ДНК. Базы данных ДНК намного больше белковых
35. Использование белковых последовательностей более предпочтительно при поиске гомологов Поиск гомологов
36. Специализированные инструменты ДНК: megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для длинных похожих последовательностей. Оптимален
37. Специализированные инструменты ДНК: megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для длинных похожих последовательностей. Оптимален
38. Какую программу выбрать? BLAST
39. Стандартный input
40. Промежуточная страница - СD
41. Output - I
42. Output - II
43. Output - III
44. Output IV
45. E-value, bit score E-value (математическое ожидание, the expectation value) – оценка числа раз наблюдать хит такого
47. E-value, bit score Bit Score – мера статистической значимости (вес – сумма стоимостей всех точечных замен)
48. Параметры выравнивания Матрица:BLOSUM для локального выравнивания обычно лучше, чем PAM Чем выше номер BLOSUM – тем
49. Сообщение о параметрах В конце файла текстовая информация об использованный параметрах: Использованная матрица замен Штрафы за
50. Выбор параметров Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны хорошо для
51. Какие параметры менять? Фильтрация Low-complexity region – другой aa-состав Фильтрация: если Ваш белок содержит большой регион
52. Параметры output-формата Количество хитов Выбор базы данных (организм) Выбор порога - Expect (если хитов мало, то
53. PSI - BLAST Алгоритм: Несколько раундов поиска Первый раунд – просто blastp (BLOSUM62) Построение PSSM на
54. PSSM Portion of a PSSM from a PSI-BLAST search using RBP4 (NP_006735) as a query. The
55. PHI - BLAST Query – белок + паттерн, которому этот белок удовлетворяет Пример: >P28332|ADH6_HUMAN Alcohol dehydrogenase
56. НММ-профиль Hidden Markov models describe alignments based on the probability of amino acids occurring in an
57. Пример простого мотива
58. Другие программы поиска по БД: FASTA (www.ebi.ac.uk/fasta33/) Ssearch (алгоритм Smith-Waterman) (www.ch.embnet.org) BLAT (genome.ucsc.edu)
60. Скачать презентацию

Слайд 2

Поиск гомологов в базах даных
BLAST
FASTA

Слайд 3

При аналізі первинних структур процедура вирівнювання виявляє сходство між послідовностями (sequence

similarity), яке може свідчити про гомологію (homology), тобто еволюційну спорідненість макромолекул.

Основний спосіб визначити схожість двох послідовностей - вирівняти їх

Геп – пропуск в
послідовності

>EC_Tr : MQNRLTIKDIARLSGVGKSTVSRVLNNE---YR
>EC_Fr : ----MKLDEIARLAGVSRTTASYVINGKAKQYR

Слайд 4

Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка).
Признаки гомологичности

белков
сходная 3D-структура
в той или иной степени похожая аминокислотная последовательность
разные другие соображения…

Слайд 5

Что изображено?
Название последовательности
Номер столбца выравнивания
Номер последнего в строке остатка ИЗ ЭТОЙ

ПОСЛЕДОВАТЕЛЬНОСТИ

Консервативный остаток

Функционально консервативная позиция

Слайд 6

«Идеальное» выравнивание – запись последовательностей одна под другой так, чтобы гомологичные

фрагменты оказались друг под другом.
домовой скупидом водомерка ?
лесовоз ---лесо---воз ледоход лед---оход---

Гэп – пропуск в
последовательности

Слайд 7

Слайд 8

Ортологи и паралоги
Ортологи – гени з різних організмів, що розійшлися при

видоутворенні.
Мається на увазі, що ортологи мають спільного «предка» і однакову функцію (якщо тиск відбора слабкий, то функція может «плисти»).
Паралоги – гени, що розійшлися при дуплікації («копіюванні»).
Копії гена не зазнавали тиска відбора, а значить, могли змінити функцію.

Слайд 9

BLAST
Что такое выравнивание
Выравнивание 2х последовательностей
BLAST на NCBI:
Что это такое
Как выбрать

правильную программу
Как выбрать правильную базу данных
Как запустить
Как интерпретировать результаты

Слайд 10

Почему нас интересует локальное сходство последовательностей?
Мы верим, что:
1. функцию, структуру и

многие другие свойства белка/ДНК определяет последовательность;
родственные белки имеют похожие свойства
молекулы, похожие по последовательности, похожи и по свойствам
Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную

Слайд 11

Гомологи
Ортологи Паралоги Ксенологи ?
(W.M.Fitch, Syst.Zool.19,99(1970)

Слайд 12

Схожие 3D структуры
Вставка в «синей» последовательности

Слайд 13

Матрицы замен
Матрица 20*20 на пересечении 2х aa их уровень сходства (?):
Похожесть

по свойствам (объем, гидрофильность, заряд и т.д.)
Эволюционное родство – частота замен 1ой aa на другую в изученных белках
2 сорта последних:
РАМ (Point Accepted Mutations) – на выравниваниях очень близких белков (РАМ20 = РАМ^20)
BLOSUM (BLOck Scoring Matrix) – на блоках выравниваний далеких белков (без делеций) (BLOSUM62 – на белках со средним уровнем сходства 62% попарно)

Слайд 14

Делеции/инсерции
Общий штраф
Значительно чаще 1 длинная делеция, чем много коротких => штраф

за внесение делеции + штраф за удлинение делеции

Слайд 15

Типы выравнивания
Локальное – поиск фрагментов наиболее похожих друг на друга
домовой домовой

домовой
скупидом водомерка водомерка
Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару
лесовоз ---лесо---воз ледоход лед---оход---

Слайд 16

Критерии качества выравнивания
Количество идентичных (похожих) аминокислот/нуклеотидов
Для белков – более 25%

id при длине > 100 aa
Для ДНК – более 70% id при длине > 100 nt
Длина выравнивания
Вероятность наблюдать такое сходство случайным образом
Зависит от базы данных
Score – общая мера сходства:
Зависит от программы

Слайд 17

Поиск гомологов в базах даных
FASTA (Pearson and Lipman, 1988)
BLAST (Altschul et

al., 1990)

Слайд 18

FASTA
1.A lookup table is generated consisting of short stretches of amino

acids or nucleotides from a database. The size of these stretches is determined from the ktup parameter. If ktup ј 3 for a protein search, then the query sequence is examined in blocks of three amino acids against matches of three amino acids found in the lookup table. The FASTA program identifies the 10 highest scoring segments that align for a given ktup.
2. These 10 aligned regions are rescored, allowing for conservative replacements, using a scoring matrix such as PAM250.
3. High-scoring regions are joined together if they are part of the same proteins.
4. FASTA then performs a global (Needleman–Wunsch) or local (Smith– Waterman) alignment on the highest scoring sequences, thus optimizing the alignments of the query sequence with the best database matches. Thus, dynamic programming is applied to the database search in a limited fashion, allowing FASTA to return its results very rapidly because it evaluates only a portion of the potential alignments.

Слайд 19

FASTA
http://www.ebi.ac.uk/Tools/sss/fasta/

Слайд 20

BLAST – Basic Local Alignment and Search Tool
Локальное выравнивание
Главная задача –

поиск похожих последовательностей в базах данных (=> главное достоинство – скорость)
Неточно восстанавливает сходство
Основная программа поиска по БД
Для специализированных БД часто предлагается на сайте БД
Для поиска среди известных последовательностей есть специальные сервера

Слайд 21

Родной BLAST – NCBI (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi)

Слайд 22

Basic Local Alignment Search Tool
Также, как FASTA, требует параметр k (длина

слова).
Белки k= 3 letter words
ДНК k= 11 letter words.

Алгоритм BLAST

Слайд 23

$1. Поиск идентичных\похожих участков 2. Попытка «удлинить» эти участки насколько$

1. Поиск идентичных\похожих участков
2. Попытка «удлинить» эти участки насколько возможно (т.е.

пока score растёт)
В результате: High-scoring Segment Pairs (HSPs)
THEFIRSTLINIHAVEADREAMESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEWASNINETEEN

Алгоритм BLAST (шаг 1)

Слайд 24

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними:
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST

(шаг 2)

Слайд 25

Blast
Blast – это семейство программ: BlastN, BlastP, BlastX, tBlastN
BlastN - ДНК

vs ДНК
BlastP – белок vs белок
BlastX - translated ДНК vs белок
tBlastN - белок vs translated ДНК

Query: ДНК Белок
Database: ДНК Белок

Слайд 26

Blast

Слайд 27

Одною з розповсюджених прикладних задач є пошук гомологів відомих білків у

повністю розшифрованих геномах.

пряме співставлення амінокислотної послідовності проти нуклеотидної є неможливим
дві можливі стратегії аналізу

Слайд 28

Стратегія 1
Ми перетворюємо цільову амінокислотну послідовність в набір нуклеотидних послідовностей, згідно

стандартного генетичного коду.
На виході отримуємо величезну купу нуклеотидних послідовностей, кількість яких не може бути спрогнозовано, внаслідок виродженності генетичного коду. Як наслідок, задачу співставлення цього масиву послідовностей з вмістом нуклеотидної бази даних, взагалі не може бути вирішено за розумний проміжок часу

Слайд 29

Стратегія 2
Ми перетворюємо (транслюємо) вміст нуклеотидної бази даних в амінокислотні

послідовності.
На виході отримуємо 6 варіантів на кожну нуклеотидну послідовність, відповідно до кількості можливих рамок зчитування. Таким чином, кількість порівняльних процедур системи замість з неосяжної кількості зменшується до шести, і може бути проведено за розумний проміжок часу, що і виконує програма TBLASTN

Слайд 30

Поиск гомологов
По ДНК или по белку?
Какой поиск предпочтительней?

Слайд 31

ДНК или белок?
Какая последовательность более постоянна в эволюционном плане?
UCAUAC
Or
Serine -Tyrosine

Слайд 32

Генетический код избыточен – почти все аминокислоты кодируются более, чем 1

кодоном (тройка нуклеотидов)
Последовательность ДНК может меняться, в то время, как последовательность белка остается постоянной.
Ser-Tyr….

UCAUAC

UCUUAC

UCGUAC

U……

Поиск гомологов

Слайд 33

Нуклеотиды – 4-х буквенный алфавит.
Аминокислоты – 20-и буквенный алфавит
Две случайные последовательности

ДНК будут идентичны ~ 25%.
Две случайные белковые последовательности будут идентичны ~ 5%.

Поиск гомологов

Слайд 34

Матрицы для сравнения белков более чувствительны, чем матрицы для ДНК.
Базы

данных ДНК намного больше белковых → будут случайные совпадения.

Поиск гомологов

Слайд 35

Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов

Слайд 36

Специализированные инструменты
ДНК:
megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для

длинных похожих последовательностей. Оптимален для поиска хитов в родном геноме или очень близких видах
Discontiguous megaBLAST – аналогично, параметры подобраны для более далеких видов
Белок:
PSI-BLAST (Position-Specific Iterated -BLAST) поиск удаленных белковых гомологов с использованием PSSM (position-specific scoring matrix)
PHI-BLAST (Pattern-Hit Initiated -BLAST) ищет гомологичные белки, удовлетворяющие заданному паттерну

Слайд 37

Специализированные инструменты
ДНК:
megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для

Слайд 38

Какую программу выбрать?
BLAST

Слайд 39

Стандартный input

Слайд 40

Промежуточная страница - СD

Слайд 41

Output - I

Слайд 42

Output - II

Слайд 43

Output - III

Слайд 44

Output IV

Слайд 45

E-value, bit score
E-value (математическое ожидание, the expectation value) – оценка числа

раз наблюдать хит такого же качества при таком размере базы данных (0 - e-6 – хорошо, > 0.001 - 0.01 – плохо)
Как правило, BLAST недооценивает e-value!

Слайд 46

Слайд 47

E-value, bit score
Bit Score – мера статистической значимости (вес – сумма

стоимостей всех точечных замен) выравнивания - меньше 50 – плохо)

Слайд 48

Параметры выравнивания
Матрица:BLOSUM для локального выравнивания обычно лучше, чем PAM
Чем выше номер

BLOSUM – тем строже выравнивание (BLOSUM80 вместо BLOSUM45 – более короткие выравнивания)
РАМ – чем ниже, тем строже
Штрафы за делеции:
Чем больше штраф за внесение, тем короче выравнивания
Меняете матрицу – надо менять и штраф
Чем ниже номер BLOSUM (выше РАМ), тем меньше штраф за внесение делеции
Штраф за удлинение ~10 раз ниже, чем за внесение
Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение
Близкие гомологи – штрафы ближе друг к другу

Слайд 49

Сообщение о параметрах
В конце файла текстовая информация об использованный параметрах:
Использованная матрица

замен
Штрафы за внесение и продление делеции
Дата
Использованная БД
Размер БД
Количество полученных хитов
…

Слайд 50

Выбор параметров
Меняйте параметры только, если по умолчанию не работает (параметры по

умолчанию подобраны хорошо для большинства ситуаций)
Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу

Слайд 51

Какие параметры менять? Фильтрация
Low-complexity region – другой aa-состав
Фильтрация: если Ваш белок

содержит большой регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации
Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную
ДНК – геном-специфичные повторы!

Слайд 52

Параметры output-формата
Количество хитов
Выбор базы данных (организм)
Выбор порога - Expect (если хитов

мало, то можно смотреть на более подозрительные)
Entrez query – ключевые слова (например, “protease AND human”)

Слайд 53

PSI - BLAST
Алгоритм:
Несколько раундов поиска
Первый раунд – просто blastp (BLOSUM62)
Построение

PSSM на основе полученных хитов (можете выбрать те, что надо)
Следующий раунд на основе этой PSSM
Методов итераций, пока множество хитов не перестанет меняться

Слайд 54

PSSM
Portion of a PSSM from a PSI-BLAST search using RBP4 (NP_006735)

as a query. The 199 amino acid residues of the query are represented in rows; the 20 amino acids are in columns. Note that for a given residue such as alanine the score can vary (compare A14, A15, and A16, which receive scores of 3, 2, and 4). The tryptophan in position 40 is invariant in several hundred lipocalins. Compare the score of W40, W3, or W5 (each receives ю12) with W13 (ю7); in the W3, W5, and W40 positions a match is rewarded more highly, and the penalties for mismatches are substantially greater. A PSSM such as this one allows PSI-BLAST to perform with far greater sensitivity than standard blastp searches

Слайд 55

PHI - BLAST
Query – белок + паттерн, которому этот белок удовлетворяет
Пример:
>P28332|ADH6_HUMAN

Alcohol dehydrogenase 6 - Homo sapiens (Human)
MSTTGQVIRCKAAILWKPGAPFSIEEVEVAPPKAKEVRIKVVATGLCGTEMKVLGSKHLD LLYPTILGHEGAGIVESIGEGVSTVKPGDKVITLFLPQCGECTSCLNSEGNFCIQFKQSK TQLMSDGTSRFTCKGKSIYHFGNTSTFCEYTVIKEISVAKIDAVAPLEKVCLISCGFSTG FGAAINTAKVTPGSTCAVFGLGGVGLSVVMGCKAAGAARIIGVDVNKEKFKKAQELGATE CLNPQDLKKPIQEVLFDMTDAGIDFCFEAIGNLDVLAAALASCNESYGVCVVVGVLPASV QLKISGQLFFSGRSLKGSVFGGWKSRQHIPKLVADYMAEKLNLDPLITHTLNLDKINEAV
ELMKTGKW
G - H - E - x - {EL} - G - {AP} - x(4) - [GA] - x(2) - [IVSAC]

Слайд 56

НММ-профиль
Hidden Markov models describe alignments based on the probability of amino

acids occurring in an aligned column. This is conceptually related to the position-specific scoring matrix used by PSI-BLAST. (a) An alignment of five globins is shown. The five proteins are a nonsymbiotic plant hemoglobin from rice (Oryza sativa) (1D8U), human neuroglobin (1OJ6A), human beta globin (2hhbB), leghemoglobin from the soybean Glycine max(1FSL), and human myoglobin (2MM1). (b) The probability of each residue occurring in each aligned column of residues is calculated. (c) From these probabilities, a score is derived for any query such as HARTV. Note that the actual score will also account for gaps and other parameters. Also note that this is a position-specific scoring scheme; for example, there is a different probability of the amino acid residue lysine occurring in position 3 versus 4. (d) The probabilities associated with each position of the alignment can be displayed in boxes representing states.

Слайд 57

Пример простого мотива

Слайд 58

Биоинформатика. Поиск гомологов в базах данных. (Тема 5) презентация

Содержание

Поиск гомологов в базах даныхBLASTFASTA

При аналізі первинних структур процедура вирівнювання виявляє сходство між послідовностями (sequence

Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка).Признаки гомологичности

Что изображено?Название последовательностиНомер столбца выравниванияНомер последнего в строке остатка ИЗ ЭТОЙ

«Идеальное» выравнивание – запись последовательностей одна под другой так, чтобы гомологичные

Ортологи и паралогиОртологи – гени з різних організмів, що розійшлися при

BLASTЧто такое выравниваниеВыравнивание 2х последовательностейBLAST на NCBI: Что это такоеКак выбрать

Почему нас интересует локальное сходство последовательностей?Мы верим, что:1. функцию, структуру и

ГомологиОртологи Паралоги Ксенологи ?(W.M.Fitch, Syst.Zool.19,99(1970)

Схожие 3D структурыВставка в «синей» последовательности

Матрицы заменМатрица 20*20 на пересечении 2х aa их уровень сходства (?):Похожесть

Делеции/инсерцииОбщий штрафЗначительно чаще 1 длинная делеция, чем много коротких => штраф

Типы выравниванияЛокальное – поиск фрагментов наиболее похожих друг на другадомовой домовой

Критерии качества выравниванияКоличество идентичных (похожих) аминокислот/нуклеотидов Для белков – более 25%

Поиск гомологов в базах даныхFASTA (Pearson and Lipman, 1988)BLAST (Altschul et

FASTA1.A lookup table is generated consisting of short stretches of amino

FASTAhttp://www.ebi.ac.uk/Tools/sss/fasta/

BLAST – Basic Local Alignment and Search ToolЛокальное выравниваниеГлавная задача –

Родной BLAST – NCBI (http://www.ncbi.nlm.nih.gov/blast/Blast.cgi)

Basic Local Alignment Search ToolТакже, как FASTA, требует параметр k (длина

1. Поиск идентичных\похожих участков2. Попытка «удлинить» эти участки насколько возможно (т.е.

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними:THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD INVIEIAMDEADMEATTNAMHEW___ASNINETEENАлгоритм BLAST

BlastBlast – это семейство программ: BlastN, BlastP, BlastX, tBlastNBlastN - ДНК

Blast

Одною з розповсюджених прикладних задач є пошук гомологів відомих білків у

Стратегія 1Ми перетворюємо цільову амінокислотну послідовність в набір нуклеотидних послідовностей, згідно

Стратегія 2 Ми перетворюємо (транслюємо) вміст нуклеотидної бази даних в амінокислотні

Поиск гомологовПо ДНК или по белку?Какой поиск предпочтительней?

ДНК или белок?Какая последовательность более постоянна в эволюционном плане?UCAUACOrSerine -Tyrosine

Генетический код избыточен – почти все аминокислоты кодируются более, чем 1

Нуклеотиды – 4-х буквенный алфавит.Аминокислоты – 20-и буквенный алфавитДве случайные последовательности

Матрицы для сравнения белков более чувствительны, чем матрицы для ДНК. Базы

Использование белковых последовательностей более предпочтительно при поиске гомологовПоиск гомологов

Специализированные инструментыДНК: megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для

Специализированные инструментыДНК: megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для

Какую программу выбрать?BLAST

Стандартный input

Промежуточная страница - СD

Output - I

Output - II

Output - III

Output IV

E-value, bit scoreE-value (математическое ожидание, the expectation value) – оценка числа

E-value, bit scoreBit Score – мера статистической значимости (вес – сумма

Параметры выравниванияМатрица:BLOSUM для локального выравнивания обычно лучше, чем PAMЧем выше номер

Сообщение о параметрах В конце файла текстовая информация об использованный параметрах:Использованная матрица

Выбор параметровМеняйте параметры только, если по умолчанию не работает (параметры по

Какие параметры менять? ФильтрацияLow-complexity region – другой aa-составФильтрация: если Ваш белок

Параметры output-форматаКоличество хитовВыбор базы данных (организм)Выбор порога - Expect (если хитов

PSI - BLASTАлгоритм:Несколько раундов поиска Первый раунд – просто blastp (BLOSUM62)Построение

PSSMPortion of a PSSM from a PSI-BLAST search using RBP4 (NP_006735)

PHI - BLAST Query – белок + паттерн, которому этот белок удовлетворяетПример:>P28332|ADH6_HUMAN

НММ-профильHidden Markov models describe alignments based on the probability of amino

Пример простого мотива

Другие программы поиска по БД:FASTA (www.ebi.ac.uk/fasta33/)Ssearch (алгоритм Smith-Waterman) (www.ch.embnet.org)BLAT (genome.ucsc.edu)

Похожие презентации

Поиск гомологов в базах даных
BLAST
FASTA

Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка).
Признаки гомологичности

Что изображено?
Название последовательности
Номер столбца выравнивания
Номер последнего в строке остатка ИЗ ЭТОЙ

Ортологи и паралоги
Ортологи – гени з різних організмів, що розійшлися при

BLAST
Что такое выравнивание
Выравнивание 2х последовательностей
BLAST на NCBI:
Что это такое
Как выбрать

Почему нас интересует локальное сходство последовательностей?
Мы верим, что:
1. функцию, структуру и

Гомологи
Ортологи Паралоги Ксенологи ?
(W.M.Fitch, Syst.Zool.19,99(1970)

Схожие 3D структуры
Вставка в «синей» последовательности

Матрицы замен
Матрица 20*20 на пересечении 2х aa их уровень сходства (?):
Похожесть

Делеции/инсерции
Общий штраф
Значительно чаще 1 длинная делеция, чем много коротких => штраф

Типы выравнивания
Локальное – поиск фрагментов наиболее похожих друг на друга
домовой домовой

Критерии качества выравнивания
Количество идентичных (похожих) аминокислот/нуклеотидов
Для белков – более 25%

Поиск гомологов в базах даных
FASTA (Pearson and Lipman, 1988)
BLAST (Altschul et

FASTA
1.A lookup table is generated consisting of short stretches of amino

FASTA
http://www.ebi.ac.uk/Tools/sss/fasta/

BLAST – Basic Local Alignment and Search Tool
Локальное выравнивание
Главная задача –

Basic Local Alignment Search Tool
Также, как FASTA, требует параметр k (длина

1. Поиск идентичных\похожих участков
2. Попытка «удлинить» эти участки насколько возможно (т.е.

Попытка соединить соседние HSPs путем выравнивания последовательностей между ними:
THEFIRSTLINIHAVEADREA____M_ESIRPATRICKREAD
INVIEIAMDEADMEATTNAMHEW___ASNINETEEN
Алгоритм BLAST

Blast
Blast – это семейство программ: BlastN, BlastP, BlastX, tBlastN
BlastN - ДНК

Стратегія 1
Ми перетворюємо цільову амінокислотну послідовність в набір нуклеотидних послідовностей, згідно

Стратегія 2
Ми перетворюємо (транслюємо) вміст нуклеотидної бази даних в амінокислотні

Поиск гомологов
По ДНК или по белку?
Какой поиск предпочтительней?

ДНК или белок?
Какая последовательность более постоянна в эволюционном плане?
UCAUAC
Or
Serine -Tyrosine

Нуклеотиды – 4-х буквенный алфавит.
Аминокислоты – 20-и буквенный алфавит
Две случайные последовательности

Матрицы для сравнения белков более чувствительны, чем матрицы для ДНК.
Базы

Использование белковых последовательностей более предпочтительно при поиске гомологов
Поиск гомологов

Специализированные инструменты
ДНК:
megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для

Специализированные инструменты
ДНК:
megaBLAST – другой алгоритм для сравнения ДНК. Оптимизирован для

Какую программу выбрать?
BLAST

E-value, bit score
E-value (математическое ожидание, the expectation value) – оценка числа

E-value, bit score
Bit Score – мера статистической значимости (вес – сумма

Параметры выравнивания
Матрица:BLOSUM для локального выравнивания обычно лучше, чем PAM
Чем выше номер

Сообщение о параметрах
В конце файла текстовая информация об использованный параметрах:
Использованная матрица

Выбор параметров
Меняйте параметры только, если по умолчанию не работает (параметры по

Какие параметры менять? Фильтрация
Low-complexity region – другой aa-состав
Фильтрация: если Ваш белок

Параметры output-формата
Количество хитов
Выбор базы данных (организм)
Выбор порога - Expect (если хитов

PSI - BLAST
Алгоритм:
Несколько раундов поиска
Первый раунд – просто blastp (BLOSUM62)
Построение

PSSM
Portion of a PSSM from a PSI-BLAST search using RBP4 (NP_006735)

PHI - BLAST
Query – белок + паттерн, которому этот белок удовлетворяет
Пример:
>P28332|ADH6_HUMAN

НММ-профиль
Hidden Markov models describe alignments based on the probability of amino

Другие программы поиска по БД:
FASTA (www.ebi.ac.uk/fasta33/)
Ssearch (алгоритм Smith-Waterman) (www.ch.embnet.org)
BLAT (genome.ucsc.edu)