Технология секвенирования генома и сборка генома. Лекция 8 презентация

Июль 30, 2021

Главная
Биология
Технология секвенирования генома и сборка генома. Лекция 8

Содержание

2. ДНК секвенирование Подход для определения нуклеотидной последовательности ДНК (дезоксирибонуклеиновой кислоты) 28.11.2018
3. 28.11.2018
4. 28.11.2018
5. Применение NGS 28.11.2018
6. Основные термины Геномные библиотеки - это коллекция геномной ДНК полученная от одного организма и подготовленная для
7. Первые методы секвенирования Maxam-Gilbert (1976-1977) Sanger (1977) 28.11.2018
8. 28.11.2018 Нуклеотид-специфическая деградация ДНК при обработке различными веществами
9. Секвенирование по Сенгеру (Золотой стандарт) 28.11.2018 Phi X 174 (ΦX174) бактериофаг был первым секвенированным ДНК геномом
10. Полногеномное секвенирование с использованием метода Сенгера 28.11.2018
11. Проект геном человека Размер генома – 3.2 Гб Длительность – 10 лет 1990 – 2000 Цена
12. Секвенирование по Сенгеру Плюсы: Относительно низкий уровень ошибок Удобное и дешевое секвенирование небольших фрагментов генома (16S
13. 28.11.2018
14. New Generation Sequencing 28.11.2018 Плюсы: Простая подготовка ДНК библиотек (пробоподготовка) Высокая производительность Низкая стоимость секвенирования Минусы:
15. Основные принципы подготовки ДНК библиотек Фрагментация ДНК Отбор размера Лигирование адаптора Амплификация библиотеки 28.11.2018
16. Стратегия полногеномного секвенирования использует NGS платформы 28.11.2018
17. Контиг (Contig) - группа перекрывающихся прочтений, представляющие участок генома. 28.11.2018 Contig is a group of overlapping
18. Scaffold (Скафолд) – реконструированная часть генома, полученная в результате анализа библиотек большого размера и правильного взаимного
19. 28.11.2018
20. Таргетное секвенирование 28.11.2018 Nature Methods 7, 111 - 118 (2010)
21. Индексирование (Баркодинг) Можно за один запуск секвенатора прочитать несколько геномов или геномных участков Индексы – короткие
22. Примеры индексов 28.11.2018
23. Платформы 28.11.2018
24. 28.11.2018
25. 454 Sequencing Technology 28.11.2018 Фрагментация ДНК Подготовка библиотеки Пришивание адапторов к молекулам ДНК с двух концов.
26. 28.11.2018 Один фрагмент = одна бусина (bead) Библиотека фрагментов ДНК прикрепляется к бусинам после денатурации ДНК.
27. 28.11.2018 Секвенирование начинается с присоединения праймера, потом присоединение комплементарного нуклеотида приводит к высвобождению пирофосфата, который взаимодействуя
28. 28.11.2018
29. Ion Torrent Подготовка библиотеки похожа на Roche 454 • фрагментация ДНК • Прикрепление адаптера • Эмульсионная
30. Ion Torrent полупроводниковое секвенирование 28.11.2018 Во время секвенирования, последовательно подаются нуклеотиды, при встраивании которых выделяются ионы
31. 28.11.2018 Ion Torrent полупроводниковое секвенирование Выделение ионов водорода приводит к изменению кислотности среды, что детектируются высокочувствительным
32. 28.11.2018 Ion Torrent полупроводниковое секвенирование
33. 28.11.2018 Ion Torrent полупроводниковое секвенирование
34. 28.11.2018
35. SOLiD 28.11.2018 Подготовка библиотеки похожа на Roche 454 • фрагментация ДНК • Прикрепление адаптера • Эмульсионная
36. SOLiD 28.11.2018
37. SOLiD 28.11.2018 Происходит последовательное взаимодействие олигонуклеотида, состоящего из специфичного динуклеотида, пяти неспецифичных нуклеотидов и флуорафора, что
38. SOLiD 28.11.2018 Для борьбы с неспецифичными нуклеотидами используют новые праймеры, которые короче на 1,2,3,4 нуклеотида (всего
39. Все описанные технологии обеспечивают односторонние прочтения ДНК 28.11.2018
40. 28.11.2018
41. Подготовка библиотеки ДНК 28.11.2018
42. Illumina Гибридизация ДНК-библиотек Генерация кластеров (ПЦР) Секвенирование синтезом 28.11.2018 http://www.youtube.com/watch?v=HMyCqWhwB8E
43. 28.11.2018 Illumina
44. 28.11.2018 Illumina
45. Pacific Biosciences single molecule real-time (SMRT) sequencing Одномолекулярное секвенирование в реальном времени Секвенировании без амплификации Очень
46. 28.11.2018
47. 28.11.2018
48. Сравнение платформ NGS 28.11.2018
49. Контроль качества данных 28.11.2018
50. 28.11.2018
51. Алгоритм контроля качества 28.11.2018 Проверка качества Определение проблемы Решение проблемы Проверка качества Последующий анализ
52. Зачем чистить данные? 28.11.2018 • Риды низкого качества • Контаминация (примесь ДНК другого организма) • Служебные
53. FASTA и FASTQ форматы 28.11.2018 FASTA FASTQ Линия начинающаяся с @ содержит идентификатор последовательности Последовательность Линия
54. Шкала качества Фред (Phred) 28.11.2018 Оценки качества нуклеотида Q определяются как величина, которая логарифмически зависит от
55. Таблица ASCII символов 28.11.2018
56. Разные Phred шкалы 28.11.2018
57. Cборка генома 28.11.2018
58. 28.11.2018
59. FastQC – инструмент для контроля качества данных На вход – исходные данные с секвенатора HTML отчет
60. FastQC 28.11.2018
61. FastQC: распределение качества по остаткам 28.11.2018 Плохое Хорошее У Illumina качество ридов обычно уменьшается к 3'
62. 28.11.2018 FastQC: распределение качества по ридам Плохое Хорошее Мы можем выделить группы ридов с низким и
63. 28.11.2018 FastQC: распределение качества по составу остатков Плохое Хорошее Мы можем определить адаптеры или сдвиг
64. 28.11.2018 FastQC: распределение ридов по GC составу Плохо Хорошо GC пики могут свидетельствовать о контаминации
65. 28.11.2018 FastQC: уровни дупликаций последовательностей Плохо Хорошо Высокий уровень дупликации свидетельствует об оверамплификации некоторых последовательностей при
66. 28.11.2018 FastQC: Overrepresented sequences Плохо Хорошо Перепредставленные последовательности могут показывать источник контаминации
67. 28.11.2018 FastQC: Качество ячеек Плохо Хорошо У Illumina можно определить проблемы с ячейками
68. Шаги препроцессинга Фильтрация данных по качеству Удаление ридов, качество которых ниже определенного порога; Обрезание части ридов,
69. У нас есть очищенные данные. Что дальше? Сборка de novo Сборка по референсному геному Выравнивание с
70. Сборка de novo 28.11.2018 Возьмем большое количество коротких секвенированных ридов и поместим их вместе, чтобы воссоздать
71. Секвенирование геномов с использованием коротких ридов 28.11.2018
72. План сборки 28.11.2018
73. Разноразмерные библиотеки ДНК 28.11.2018
74. 28.11.2018 http://lucigen.com/landingpage/matepair/
75. Сборка генома в идеальном случае 28.11.2018 Однородное покрытие ридами, нет ошибок и контаминации
76. Сборка генома в реальности 28.11.2018
77. 28.11.2018 Кафедра биоинформатики МБФ РНИМУ
78. Выбор правильной программы - сборщика геномов (ассемблер) На сколько большой геном? Существуют ли известные особенности этого
79. Сборщики геномов 28.11.2018
80. Оценка качества сборки генома Количество контигов Общая длинна всех контигов Длинна наибольшего контига Количество неправильно собранных
81. N50 Размер контига, который представляет из себя наиболее длинный контиг, такой, начиная с которого, все остальные
82. QUAST - QUality ASsesment Tool for Genome Assemblies 28.11.2018 http://quast.bioinf.spbau.ru/
83. 28.11.2018
84. Реальные графы де Брюйна 28.11.2018
85. Улучшение сборки генома 28.11.2018
86. Гибридная сборка 28.11.2018
87. Сборка на основе данных PacBio 28.11.2018
88. Получение финишного генома 28.11.2018
89. Зачем нужны финишные геномы? Функциональные геномные исследования требуют высококачественной, полной последовательности генома в качестве отправной точки
90. GOLD: Genomes OnLine Database 28.11.2018
91. Статистика GOLD 28.11.2018
92. Статистика GOLD 28.11.2018
93. Статистика GOLD 28.11.2018
94. Статистика GOLD 28.11.2018
95. NCBI Genome 28.11.2018
96. NCBI Genome 28.11.2018
97. NCBI Genome 28.11.2018
98. NCBI Genome 28.11.2018
99. NCBI SRA database 28.11.2018
101. Скачать презентацию

Слайд 2

ДНК секвенирование
Подход для определения нуклеотидной последовательности ДНК (дезоксирибонуклеиновой кислоты)
28.11.2018

Слайд 3

28.11.2018

Слайд 4

28.11.2018

Слайд 5

Применение NGS
28.11.2018

Слайд 6

Основные термины
Геномные библиотеки - это коллекция геномной ДНК полученная от одного

организма и подготовленная для секвенирования
Sequence Read (сиквенсное прочтение, рид) - нуклеотидная последовательность определённая секвенатором
Производительность секвенатора - набор сиквенсных прочтений, полученных во время одного запуска секвенатора. Выражается в количестве прочитанных нуклеотидов: 1000, 100 тыс., миллионы, миллиарды нуклеотидов
Уровень ошибок – доля неправильных нуклеотидов определенная при секвенировании

28.11.2018

Слайд 7

Первые методы секвенирования
Maxam-Gilbert (1976-1977)
Sanger (1977)
28.11.2018

Слайд 8

28.11.2018
Нуклеотид-специфическая деградация ДНК при обработке различными веществами

Слайд 9

Секвенирование по Сенгеру (Золотой стандарт)
28.11.2018
Phi X 174 (ΦX174) бактериофаг был первым

секвенированным ДНК геномом (5386 нуклеотидов) в 1977 году

Длинна секвенирования:
300-1000 bp
Ошибки: 0.1-1%

Слайд 10

Полногеномное секвенирование с использованием метода Сенгера
28.11.2018

Слайд 11

Проект геном человека
Размер генома – 3.2 Гб
Длительность – 10 лет
1990 –

2000
Цена – 3 млрд. $
Метод - секвенирование по Сенгеру

28.11.2018

Слайд 12

Секвенирование по Сенгеру
Плюсы:
Относительно низкий уровень ошибок
Удобное и дешевое секвенирование небольших фрагментов

генома (16S РНК, Hsp65, и т.д.)
Минусы:
Высокая стоимость полногеномного секвенирования
Трудоемкость
Низкая производительность

28.11.2018

Слайд 13

28.11.2018

Слайд 14

New Generation Sequencing
28.11.2018
Плюсы:
Простая подготовка ДНК библиотек (пробоподготовка)
Высокая производительность
Низкая стоимость секвенирования
Минусы:
Короткие риды
Относительно

высокий уровень ошибок

Слайд 15

Основные принципы подготовки ДНК библиотек
Фрагментация ДНК
Отбор размера
Лигирование адаптора
Амплификация библиотеки
28.11.2018

Слайд 16

Стратегия полногеномного секвенирования использует NGS платформы
28.11.2018

Слайд 17

Контиг (Contig) - группа перекрывающихся прочтений, представляющие участок генома.
28.11.2018
Contig is a

group of overlapping clones representing regions of the genome; the contiguous sequence of DNA created by assembling these overlapping chromosome fragments.
Definition from: NCI Thesaurus via Unified Medical Language System at the National Library of Medicine

Слайд 18

Scaffold (Скафолд) – реконструированная часть генома, полученная в результате анализа библиотек

большого размера и правильного взаимного расположения контигов

28.11.2018

Scaffold is a portion of the genome sequence reconstructed from end-sequenced
whole-genome shotgun clones. Scaffolds are composed of contigs and gaps.
Definition from: http://genome.jgi-psf.org/help/scaffolds.html

Слайд 19

28.11.2018

Слайд 20

Таргетное секвенирование
28.11.2018
Nature Methods 7, 111 - 118 (2010)

Слайд 21

Индексирование (Баркодинг)
Можно за один запуск секвенатора прочитать несколько геномов или геномных

участков
Индексы – короткие олигонуклеотиды с различной последовательностью, которые фланкируют ДНК библиотеки и секвенируются вместе с целевой ДНК. На основе известной индексной последовательности можно дифференцировать несколько образцов секвенированных в одно время.

28.11.2018

Слайд 22

Примеры индексов
28.11.2018

Слайд 23

Платформы
28.11.2018

Слайд 24

28.11.2018

Слайд 25

454 Sequencing Technology
28.11.2018
Фрагментация ДНК
Подготовка библиотеки
Пришивание адапторов к молекулам ДНК с двух

концов.

Слайд 26

28.11.2018
Один фрагмент = одна бусина (bead)
Библиотека фрагментов ДНК прикрепляется к бусинам

после денатурации ДНК. Каждая бусина имеет уникальный фрагмент библиотеки. Шарики эмульгируют с реагентами амплификации в смеси вода-в-масле.

emPCR: Эмульсионная ПЦР-амплификация
Амплификация ведется в эмульсии параллельно, чтобы создать миллионы клонных копий каждого фрагмента библиотеки на каждом шарике. Если фрагмент не присоединяется к шарику, то он остается гладким.

Секвенирование: один шарик = один рид
Шарик помещается в лунку, где дизайн поверхности допускает только один шарик. Отдельные нуклеотиды протекают последовательно через лунки. Каждое включение нуклеотида, комплементарное к матричной нити, приводит к хемилюминесцентному световому сигналу, записанному камерой.

Слайд 27

28.11.2018
Секвенирование начинается с присоединения праймера, потом присоединение комплементарного нуклеотида приводит к

высвобождению пирофосфата, который взаимодействуя с сулфирилазой и люциферазой приводит к образованию светового сигнала, детектируемого камерой.

По интенсивности сигнала определяется какое количество нуклеотидов присоединяется. При этом зная какие нуклеотиды подаются в текущее время определяют последовательность ДНК.

Слайд 28

28.11.2018

Слайд 29

Ion Torrent
Подготовка библиотеки похожа на Roche 454
• фрагментация ДНК
• Прикрепление адаптера
•

Эмульсионная ПЦР
Технология секвенирования отличается

28.11.2018

Слайд 30

Ion Torrent полупроводниковое секвенирование
28.11.2018
Во время секвенирования, последовательно подаются нуклеотиды, при встраивании

которых выделяются ионы водорода.

Слайд 31

28.11.2018
Ion Torrent полупроводниковое секвенирование
Выделение ионов водорода приводит к изменению кислотности среды,

что детектируются высокочувствительным pH-метром

Слайд 32

28.11.2018
Ion Torrent полупроводниковое секвенирование

Слайд 33

28.11.2018
Ion Torrent полупроводниковое секвенирование

Слайд 34

28.11.2018

Слайд 35

SOLiD
28.11.2018
Подготовка библиотеки похожа на Roche 454
• фрагментация ДНК
• Прикрепление адаптера
• Эмульсионная

ПЦР
Технология секвенирования отличается - секвенирование путем лигирования олигонуклеотидов

Слайд 36

SOLiD
28.11.2018

Слайд 37

SOLiD
28.11.2018
Происходит последовательное взаимодействие олигонуклеотида, состоящего из специфичного динуклеотида, пяти неспецифичных нуклеотидов

и флуорафора, что приводит к специфическому связыванию динуклеотида (лигирование) и отщеплению флуорафора и детекция флуоресцентного сигнала.

Слайд 38

SOLiD
28.11.2018
Для борьбы с неспецифичными нуклеотидами используют новые праймеры, которые короче на

1,2,3,4 нуклеотида (всего 5 раундов секвенирования). Это увеличивает точность секвенирования, т.к. каждый нуклеотид прочитывается дважды, но длина ридов небольшая.

Слайд 39

Все описанные технологии обеспечивают односторонние прочтения ДНК
28.11.2018

Слайд 40

28.11.2018

Слайд 41

Подготовка библиотеки ДНК
28.11.2018

Слайд 42

Illumina
Гибридизация ДНК-библиотек
Генерация кластеров (ПЦР)
Секвенирование синтезом
28.11.2018
http://www.youtube.com/watch?v=HMyCqWhwB8E

Слайд 43

28.11.2018
Illumina

Слайд 44

28.11.2018
Illumina

Слайд 45

Pacific Biosciences single molecule real-time (SMRT) sequencing Одномолекулярное секвенирование в реальном времени
Секвенировании без

амплификации
Очень длинные риды
Производит чтения со средней длиной от 10 000 до 15 000 пар оснований, причем самые длинные риды могут быть более 30 000 пар оснований

28.11.2018

Слайд 46

28.11.2018

Слайд 47

28.11.2018

Слайд 48

Сравнение платформ NGS
28.11.2018

Слайд 49

Контроль качества данных
28.11.2018

Слайд 50

28.11.2018

Слайд 51

Алгоритм контроля качества
28.11.2018
Проверка качества
Определение проблемы
Решение проблемы
Проверка качества
Последующий анализ

Слайд 52

Зачем чистить данные?
28.11.2018
• Риды низкого качества
• Контаминация (примесь ДНК другого организма)
•

Служебные последовательности (адаптеры, индексы)
• Артефакты создания библиотек (некоторые последовательности встречаются чаще, а не равномерно)
• Различный формат данных
• Человеческий фактор

Слайд 53

FASTA и FASTQ форматы
28.11.2018
FASTA
FASTQ
Линия начинающаяся с @ содержит идентификатор

последовательности
Последовательность
Линия начинающаяся с + заполняется факультативно
Линия с величинами качества прочтения, кодируемые в ASCII формате

Слайд 54

Шкала качества Фред (Phred)
28.11.2018
Оценки качества нуклеотида Q определяются как величина, которая

логарифмически зависит от вероятностей ошибки P

Слайд 55

Таблица ASCII символов
28.11.2018

Слайд 56

Разные Phred шкалы
28.11.2018

Слайд 57

Cборка генома
28.11.2018

Слайд 58

28.11.2018

Слайд 59

FastQC – инструмент для контроля качества данных
На вход – исходные данные

с секвенатора
HTML отчет
Графический интерфейс и версия с командной строкой

28.11.2018

www.bioinformatics.babraham.ac.uk/projects/fastqc

Слайд 60

FastQC
28.11.2018

Слайд 61

FastQC: распределение качества по остаткам
28.11.2018
Плохое
Хорошее
У Illumina качество ридов обычно уменьшается к

3' концу

Слайд 62

28.11.2018
FastQC: распределение качества по ридам
Плохое
Хорошее
Мы можем выделить группы ридов с низким

и высоким качеством

Слайд 63

28.11.2018
FastQC: распределение качества по составу остатков
Плохое
Хорошее
Мы можем определить адаптеры или сдвиг

Слайд 64

28.11.2018
FastQC: распределение ридов по GC составу
Плохо
Хорошо
GC пики могут свидетельствовать о контаминации

Слайд 65

28.11.2018
FastQC: уровни дупликаций последовательностей
Плохо
Хорошо
Высокий уровень дупликации свидетельствует об оверамплификации некоторых последовательностей

при PCR

Слайд 66

28.11.2018
FastQC: Overrepresented sequences
Плохо
Хорошо
Перепредставленные последовательности могут показывать источник контаминации

Слайд 67

28.11.2018
FastQC: Качество ячеек
Плохо
Хорошо
У Illumina можно определить проблемы с ячейками

Слайд 68

Шаги препроцессинга
Фильтрация данных по качеству
Удаление ридов, качество которых ниже определенного порога;
Обрезание

части ридов, где качество плохое
Удаление контаминации
Биологическая контаминация: определение и удаление ридов
Контаминация адапторами: вырезание адапторов и удаление поврежденных ридов

28.11.2018

Слайд 69

У нас есть очищенные данные. Что дальше?
Сборка de novo
Сборка по референсному

геному
Выравнивание с референсным геномом

28.11.2018

Слайд 70

Сборка de novo
28.11.2018
Возьмем большое количество коротких секвенированных ридов и поместим их

вместе, чтобы воссоздать полный оригинальный геном из которого они были получены

Слайд 71

Секвенирование геномов с использованием коротких ридов
28.11.2018

Слайд 72

План сборки
28.11.2018

Слайд 73

Разноразмерные библиотеки ДНК
28.11.2018

Слайд 74

28.11.2018
http://lucigen.com/landingpage/matepair/

Слайд 75

Сборка генома в идеальном случае
28.11.2018
Однородное покрытие ридами, нет ошибок и контаминации

Слайд 76

Сборка генома в реальности
28.11.2018

Слайд 77

28.11.2018
Кафедра биоинформатики МБФ РНИМУ

Слайд 78

Выбор правильной программы - сборщика геномов (ассемблер)
На сколько большой геном?
Существуют ли

известные особенности этого генома (например, наличие большого числа повторов, GC состав)?
Какое количество данных ожидается?
Какого типа данные у вас есть?
Какое качество данных и необходим ли их препроцессинг перед сборкой генома?

28.11.2018

Слайд 79

Сборщики геномов
28.11.2018

Слайд 80

Оценка качества сборки генома
Количество контигов
Общая длинна всех контигов
Длинна наибольшего контига
Количество неправильно

собранных контигов
Количество идентифицированных генов
GC состав %
N50

28.11.2018

Слайд 81

N50
Размер контига, который представляет из себя наиболее длинный контиг, такой, начиная

с которого, все остальные контиги составляют не менее 50% длинны генома.

28.11.2018

Слайд 82

QUAST - QUality ASsesment Tool for Genome Assemblies
28.11.2018
http://quast.bioinf.spbau.ru/

Слайд 83

28.11.2018

Слайд 84

Реальные графы де Брюйна
28.11.2018

Слайд 85

Улучшение сборки генома
28.11.2018

Слайд 86

Гибридная сборка
28.11.2018

Слайд 87

Сборка на основе данных PacBio
28.11.2018

Слайд 88

Получение финишного генома
28.11.2018

Слайд 89

Зачем нужны финишные геномы?
Функциональные геномные исследования требуют высококачественной, полной последовательности генома

в качестве отправной точки
Сравнительная геномика имеет смысл только в терминах полных последовательностей генома
Исследования бактериальных геномов требует по крайней мере одной полной эталонной последовательности генома
Финишные геномы помогают в идентификации источника вспышки инфекций и филогенетическом анализе
Полный геном - это постоянный научный ресурс
Полный геном человека является наилучшим источником для улучшения лечения пациентов (переход к персонализированной медицине)

28.11.2018

Слайд 90

GOLD: Genomes OnLine Database
28.11.2018

Слайд 91

Статистика GOLD
28.11.2018

Слайд 92

Статистика GOLD
28.11.2018

Слайд 93

Статистика GOLD
28.11.2018

Слайд 94

Статистика GOLD
28.11.2018

Слайд 95

NCBI Genome
28.11.2018

Слайд 96

NCBI Genome
28.11.2018

Слайд 97

NCBI Genome
28.11.2018

Слайд 98

NCBI Genome
28.11.2018

Слайд 99

Технология секвенирования генома и сборка генома. Лекция 8 презентация

Содержание

ДНК секвенированиеПодход для определения нуклеотидной последовательности ДНК (дезоксирибонуклеиновой кислоты)28.11.2018

28.11.2018

28.11.2018

Применение NGS28.11.2018

Основные терминыГеномные библиотеки - это коллекция геномной ДНК полученная от одного

Первые методы секвенированияMaxam-Gilbert (1976-1977)Sanger (1977)28.11.2018

28.11.2018Нуклеотид-специфическая деградация ДНК при обработке различными веществами

Секвенирование по Сенгеру (Золотой стандарт)28.11.2018Phi X 174 (ΦX174) бактериофаг был первым

Полногеномное секвенирование с использованием метода Сенгера28.11.2018

Проект геном человекаРазмер генома – 3.2 ГбДлительность – 10 лет1990 –

Секвенирование по СенгеруПлюсы:Относительно низкий уровень ошибокУдобное и дешевое секвенирование небольших фрагментов

28.11.2018

Основные принципы подготовки ДНК библиотек Фрагментация ДНКОтбор размераЛигирование адаптораАмплификация библиотеки28.11.2018

Стратегия полногеномного секвенирования использует NGS платформы28.11.2018

Контиг (Contig) - группа перекрывающихся прочтений, представляющие участок генома. 28.11.2018Contig is a

Scaffold (Скафолд) – реконструированная часть генома, полученная в результате анализа библиотек

28.11.2018

Таргетное секвенирование28.11.2018Nature Methods 7, 111 - 118 (2010)

Индексирование (Баркодинг)Можно за один запуск секвенатора прочитать несколько геномов или геномных

Примеры индексов28.11.2018

Платформы28.11.2018

28.11.2018

454 Sequencing Technology28.11.2018Фрагментация ДНКПодготовка библиотекиПришивание адапторов к молекулам ДНК с двух

28.11.2018Один фрагмент = одна бусина (bead)Библиотека фрагментов ДНК прикрепляется к бусинам

28.11.2018Секвенирование начинается с присоединения праймера, потом присоединение комплементарного нуклеотида приводит к

28.11.2018

Ion TorrentПодготовка библиотеки похожа на Roche 454• фрагментация ДНК• Прикрепление адаптера•

Ion Torrent полупроводниковое секвенирование28.11.2018Во время секвенирования, последовательно подаются нуклеотиды, при встраивании

28.11.2018Ion Torrent полупроводниковое секвенированиеВыделение ионов водорода приводит к изменению кислотности среды,

28.11.2018Ion Torrent полупроводниковое секвенирование

28.11.2018Ion Torrent полупроводниковое секвенирование

28.11.2018

SOLiD28.11.2018Подготовка библиотеки похожа на Roche 454• фрагментация ДНК• Прикрепление адаптера• Эмульсионная

SOLiD28.11.2018

SOLiD28.11.2018Происходит последовательное взаимодействие олигонуклеотида, состоящего из специфичного динуклеотида, пяти неспецифичных нуклеотидов

SOLiD28.11.2018Для борьбы с неспецифичными нуклеотидами используют новые праймеры, которые короче на

Все описанные технологии обеспечивают односторонние прочтения ДНК28.11.2018

28.11.2018

Подготовка библиотеки ДНК28.11.2018

IlluminaГибридизация ДНК-библиотекГенерация кластеров (ПЦР)Секвенирование синтезом28.11.2018http://www.youtube.com/watch?v=HMyCqWhwB8E

28.11.2018Illumina

28.11.2018Illumina

Pacific Biosciences single molecule real-time (SMRT) sequencing Одномолекулярное секвенирование в реальном времениСеквенировании без

28.11.2018

28.11.2018

Сравнение платформ NGS28.11.2018

Контроль качества данных28.11.2018

28.11.2018

Алгоритм контроля качества28.11.2018Проверка качестваОпределение проблемыРешение проблемыПроверка качестваПоследующий анализ

Зачем чистить данные?28.11.2018• Риды низкого качества• Контаминация (примесь ДНК другого организма)•

FASTA и FASTQ форматы28.11.2018FASTA FASTQ Линия начинающаяся с @ содержит идентификатор

Шкала качества Фред (Phred)28.11.2018Оценки качества нуклеотида Q определяются как величина, которая

Таблица ASCII символов28.11.2018

Разные Phred шкалы28.11.2018

Cборка генома28.11.2018

28.11.2018

FastQC – инструмент для контроля качества данныхНа вход – исходные данные

FastQC28.11.2018

FastQC: распределение качества по остаткам28.11.2018ПлохоеХорошееУ Illumina качество ридов обычно уменьшается к

28.11.2018FastQC: распределение качества по ридамПлохоеХорошееМы можем выделить группы ридов с низким

28.11.2018FastQC: распределение качества по составу остатковПлохоеХорошееМы можем определить адаптеры или сдвиг

28.11.2018FastQC: распределение ридов по GC составуПлохоХорошоGC пики могут свидетельствовать о контаминации

28.11.2018FastQC: уровни дупликаций последовательностейПлохоХорошоВысокий уровень дупликации свидетельствует об оверамплификации некоторых последовательностей

28.11.2018FastQC: Overrepresented sequencesПлохоХорошоПерепредставленные последовательности могут показывать источник контаминации

28.11.2018FastQC: Качество ячеек ПлохоХорошоУ Illumina можно определить проблемы с ячейками

Шаги препроцессингаФильтрация данных по качествуУдаление ридов, качество которых ниже определенного порога;Обрезание

У нас есть очищенные данные. Что дальше?Сборка de novoСборка по референсному

Сборка de novo28.11.2018Возьмем большое количество коротких секвенированных ридов и поместим их

Секвенирование геномов с использованием коротких ридов28.11.2018

План сборки28.11.2018

Разноразмерные библиотеки ДНК28.11.2018

28.11.2018http://lucigen.com/landingpage/matepair/

Сборка генома в идеальном случае28.11.2018Однородное покрытие ридами, нет ошибок и контаминации

ДНК секвенирование
Подход для определения нуклеотидной последовательности ДНК (дезоксирибонуклеиновой кислоты)
28.11.2018

Применение NGS
28.11.2018

Основные термины
Геномные библиотеки - это коллекция геномной ДНК полученная от одного

Первые методы секвенирования
Maxam-Gilbert (1976-1977)
Sanger (1977)
28.11.2018

28.11.2018
Нуклеотид-специфическая деградация ДНК при обработке различными веществами

Секвенирование по Сенгеру (Золотой стандарт)
28.11.2018
Phi X 174 (ΦX174) бактериофаг был первым

Полногеномное секвенирование с использованием метода Сенгера
28.11.2018

Проект геном человека
Размер генома – 3.2 Гб
Длительность – 10 лет
1990 –

Секвенирование по Сенгеру
Плюсы:
Относительно низкий уровень ошибок
Удобное и дешевое секвенирование небольших фрагментов

Основные принципы подготовки ДНК библиотек
Фрагментация ДНК
Отбор размера
Лигирование адаптора
Амплификация библиотеки
28.11.2018

Стратегия полногеномного секвенирования использует NGS платформы
28.11.2018

Контиг (Contig) - группа перекрывающихся прочтений, представляющие участок генома.
28.11.2018
Contig is a

Таргетное секвенирование
28.11.2018
Nature Methods 7, 111 - 118 (2010)

Индексирование (Баркодинг)
Можно за один запуск секвенатора прочитать несколько геномов или геномных

Примеры индексов
28.11.2018

Платформы
28.11.2018

454 Sequencing Technology
28.11.2018
Фрагментация ДНК
Подготовка библиотеки
Пришивание адапторов к молекулам ДНК с двух

28.11.2018
Один фрагмент = одна бусина (bead)
Библиотека фрагментов ДНК прикрепляется к бусинам

28.11.2018
Секвенирование начинается с присоединения праймера, потом присоединение комплементарного нуклеотида приводит к

Ion Torrent
Подготовка библиотеки похожа на Roche 454
• фрагментация ДНК
• Прикрепление адаптера
•

Ion Torrent полупроводниковое секвенирование
28.11.2018
Во время секвенирования, последовательно подаются нуклеотиды, при встраивании

28.11.2018
Ion Torrent полупроводниковое секвенирование
Выделение ионов водорода приводит к изменению кислотности среды,

28.11.2018
Ion Torrent полупроводниковое секвенирование

28.11.2018
Ion Torrent полупроводниковое секвенирование

SOLiD
28.11.2018
Подготовка библиотеки похожа на Roche 454
• фрагментация ДНК
• Прикрепление адаптера
• Эмульсионная

SOLiD
28.11.2018

SOLiD
28.11.2018
Происходит последовательное взаимодействие олигонуклеотида, состоящего из специфичного динуклеотида, пяти неспецифичных нуклеотидов

SOLiD
28.11.2018
Для борьбы с неспецифичными нуклеотидами используют новые праймеры, которые короче на

Все описанные технологии обеспечивают односторонние прочтения ДНК
28.11.2018

Подготовка библиотеки ДНК
28.11.2018

Illumina
Гибридизация ДНК-библиотек
Генерация кластеров (ПЦР)
Секвенирование синтезом
28.11.2018
http://www.youtube.com/watch?v=HMyCqWhwB8E

28.11.2018
Illumina

28.11.2018
Illumina

Pacific Biosciences single molecule real-time (SMRT) sequencing Одномолекулярное секвенирование в реальном времени
Секвенировании без

Сравнение платформ NGS
28.11.2018

Контроль качества данных
28.11.2018

Алгоритм контроля качества
28.11.2018
Проверка качества
Определение проблемы
Решение проблемы
Проверка качества
Последующий анализ

Зачем чистить данные?
28.11.2018
• Риды низкого качества
• Контаминация (примесь ДНК другого организма)
•

FASTA и FASTQ форматы
28.11.2018
FASTA
FASTQ
Линия начинающаяся с @ содержит идентификатор

Шкала качества Фред (Phred)
28.11.2018
Оценки качества нуклеотида Q определяются как величина, которая

Таблица ASCII символов
28.11.2018

Разные Phred шкалы
28.11.2018

Cборка генома
28.11.2018

FastQC – инструмент для контроля качества данных
На вход – исходные данные

FastQC
28.11.2018

FastQC: распределение качества по остаткам
28.11.2018
Плохое
Хорошее
У Illumina качество ридов обычно уменьшается к

28.11.2018
FastQC: распределение качества по ридам
Плохое
Хорошее
Мы можем выделить группы ридов с низким

28.11.2018
FastQC: распределение качества по составу остатков
Плохое
Хорошее
Мы можем определить адаптеры или сдвиг

28.11.2018
FastQC: распределение ридов по GC составу
Плохо
Хорошо
GC пики могут свидетельствовать о контаминации

28.11.2018
FastQC: уровни дупликаций последовательностей
Плохо
Хорошо
Высокий уровень дупликации свидетельствует об оверамплификации некоторых последовательностей

28.11.2018
FastQC: Overrepresented sequences
Плохо
Хорошо
Перепредставленные последовательности могут показывать источник контаминации

28.11.2018
FastQC: Качество ячеек
Плохо
Хорошо
У Illumina можно определить проблемы с ячейками

Шаги препроцессинга
Фильтрация данных по качеству
Удаление ридов, качество которых ниже определенного порога;
Обрезание

У нас есть очищенные данные. Что дальше?
Сборка de novo
Сборка по референсному

Сборка de novo
28.11.2018
Возьмем большое количество коротких секвенированных ридов и поместим их

Секвенирование геномов с использованием коротких ридов
28.11.2018

План сборки
28.11.2018

Разноразмерные библиотеки ДНК
28.11.2018

28.11.2018
http://lucigen.com/landingpage/matepair/

Сборка генома в идеальном случае
28.11.2018
Однородное покрытие ридами, нет ошибок и контаминации