Технология секвенирования генома и сборка генома. Лекция 8 презентация

Содержание

Слайд 2

ДНК секвенирование

Подход для определения нуклеотидной последовательности ДНК (дезоксирибонуклеиновой кислоты)

28.11.2018

Слайд 3

28.11.2018

Слайд 4

28.11.2018

Слайд 5

Применение NGS

28.11.2018

Слайд 6

Основные термины

Геномные библиотеки - это коллекция геномной ДНК полученная от одного организма и

подготовленная для секвенирования
Sequence Read (сиквенсное прочтение, рид) - нуклеотидная последовательность определённая секвенатором
Производительность секвенатора - набор сиквенсных прочтений, полученных во время одного запуска секвенатора. Выражается в количестве прочитанных нуклеотидов: 1000, 100 тыс., миллионы, миллиарды нуклеотидов
Уровень ошибок – доля неправильных нуклеотидов определенная при секвенировании

28.11.2018

Слайд 7

Первые методы секвенирования

Maxam-Gilbert (1976-1977)
Sanger (1977)

28.11.2018

Слайд 8

28.11.2018

Нуклеотид-специфическая деградация ДНК при обработке различными веществами

Слайд 9

Секвенирование по Сенгеру (Золотой стандарт)

28.11.2018

Phi X 174 (ΦX174) бактериофаг был первым секвенированным ДНК

геномом (5386 нуклеотидов) в 1977 году

Длинна секвенирования:
300-1000 bp
Ошибки: 0.1-1%

Слайд 10

Полногеномное секвенирование с использованием метода Сенгера

28.11.2018

Слайд 11

Проект геном человека

Размер генома – 3.2 Гб
Длительность – 10 лет
1990 – 2000
Цена –

3 млрд. $
Метод - секвенирование по Сенгеру

28.11.2018

Слайд 12

Секвенирование по Сенгеру

Плюсы:
Относительно низкий уровень ошибок
Удобное и дешевое секвенирование небольших фрагментов генома (16S

РНК, Hsp65, и т.д.)
Минусы:
Высокая стоимость полногеномного секвенирования
Трудоемкость
Низкая производительность

28.11.2018

Слайд 13

28.11.2018

Слайд 14

New Generation Sequencing

28.11.2018

Плюсы:
Простая подготовка ДНК библиотек (пробоподготовка)
Высокая производительность
Низкая стоимость секвенирования
Минусы:
Короткие риды
Относительно высокий уровень

ошибок

Слайд 15

Основные принципы подготовки ДНК библиотек

Фрагментация ДНК
Отбор размера
Лигирование адаптора
Амплификация библиотеки

28.11.2018

Слайд 16

Стратегия полногеномного секвенирования использует NGS платформы

28.11.2018

Слайд 17

Контиг (Contig) - группа перекрывающихся прочтений, представляющие участок генома.

28.11.2018

Contig is a group of

overlapping clones representing regions of the genome; the contiguous sequence of DNA created by assembling these overlapping chromosome fragments.
Definition from: NCI Thesaurus via Unified Medical Language System at the National Library of Medicine

Слайд 18

Scaffold (Скафолд) – реконструированная часть генома, полученная в результате анализа библиотек большого размера

и правильного взаимного расположения контигов

28.11.2018

Scaffold is a portion of the genome sequence reconstructed from end-sequenced
whole-genome shotgun clones. Scaffolds are composed of contigs and gaps.
Definition from: http://genome.jgi-psf.org/help/scaffolds.html

Слайд 19

28.11.2018

Слайд 20

Таргетное секвенирование

28.11.2018

Nature Methods 7, 111 - 118 (2010)

Слайд 21

Индексирование (Баркодинг)

Можно за один запуск секвенатора прочитать несколько геномов или геномных участков
Индексы –

короткие олигонуклеотиды с различной последовательностью, которые фланкируют ДНК библиотеки и секвенируются вместе с целевой ДНК. На основе известной индексной последовательности можно дифференцировать несколько образцов секвенированных в одно время.

28.11.2018

Слайд 22

Примеры индексов

28.11.2018

Слайд 23

Платформы

28.11.2018

Слайд 24

28.11.2018

Слайд 25

454 Sequencing Technology

28.11.2018

Фрагментация ДНК

Подготовка библиотеки
Пришивание адапторов к молекулам ДНК с двух концов.

Слайд 26

28.11.2018

Один фрагмент = одна бусина (bead)
Библиотека фрагментов ДНК прикрепляется к бусинам после денатурации

ДНК. Каждая бусина имеет уникальный фрагмент библиотеки. Шарики эмульгируют с реагентами амплификации в смеси вода-в-масле.

emPCR: Эмульсионная ПЦР-амплификация
Амплификация ведется в эмульсии параллельно, чтобы создать миллионы клонных копий каждого фрагмента библиотеки на каждом шарике. Если фрагмент не присоединяется к шарику, то он остается гладким.

Секвенирование: один шарик = один рид
Шарик помещается в лунку, где дизайн поверхности допускает только один шарик. Отдельные нуклеотиды протекают последовательно через лунки. Каждое включение нуклеотида, комплементарное к матричной нити, приводит к хемилюминесцентному световому сигналу, записанному камерой.

Слайд 27

28.11.2018

Секвенирование начинается с присоединения праймера, потом присоединение комплементарного нуклеотида приводит к высвобождению пирофосфата,

который взаимодействуя с сулфирилазой и люциферазой приводит к образованию светового сигнала, детектируемого камерой.

По интенсивности сигнала определяется какое количество нуклеотидов присоединяется. При этом зная какие нуклеотиды подаются в текущее время определяют последовательность ДНК.

Слайд 28

28.11.2018

Слайд 29

Ion Torrent

Подготовка библиотеки похожа на Roche 454
• фрагментация ДНК
• Прикрепление адаптера
• Эмульсионная ПЦР
Технология

секвенирования отличается

28.11.2018

Слайд 30

Ion Torrent полупроводниковое секвенирование

28.11.2018

Во время секвенирования, последовательно подаются нуклеотиды, при встраивании которых выделяются

ионы водорода.

Слайд 31

28.11.2018

Ion Torrent полупроводниковое секвенирование

Выделение ионов водорода приводит к изменению кислотности среды, что детектируются

высокочувствительным pH-метром

Слайд 32

28.11.2018

Ion Torrent полупроводниковое секвенирование

Слайд 33

28.11.2018

Ion Torrent полупроводниковое секвенирование

Слайд 34

28.11.2018

Слайд 35

SOLiD

28.11.2018

Подготовка библиотеки похожа на Roche 454
• фрагментация ДНК
• Прикрепление адаптера
• Эмульсионная ПЦР
Технология секвенирования

отличается - секвенирование путем лигирования олигонуклеотидов

Слайд 36

SOLiD

28.11.2018

Слайд 37

SOLiD

28.11.2018

Происходит последовательное взаимодействие олигонуклеотида, состоящего из специфичного динуклеотида, пяти неспецифичных нуклеотидов и флуорафора,

что приводит к специфическому связыванию динуклеотида (лигирование) и отщеплению флуорафора и детекция флуоресцентного сигнала.

Слайд 38

SOLiD

28.11.2018

Для борьбы с неспецифичными нуклеотидами используют новые праймеры, которые короче на 1,2,3,4 нуклеотида

(всего 5 раундов секвенирования). Это увеличивает точность секвенирования, т.к. каждый нуклеотид прочитывается дважды, но длина ридов небольшая.

Слайд 39

Все описанные технологии обеспечивают односторонние прочтения ДНК

28.11.2018

Слайд 40

28.11.2018

Слайд 41

Подготовка библиотеки ДНК

28.11.2018

Слайд 42

Illumina

Гибридизация ДНК-библиотек
Генерация кластеров (ПЦР)
Секвенирование синтезом

28.11.2018

http://www.youtube.com/watch?v=HMyCqWhwB8E

Слайд 43

28.11.2018

Illumina

Слайд 44

28.11.2018

Illumina

Слайд 45

Pacific Biosciences single molecule real-time (SMRT) sequencing Одномолекулярное секвенирование в реальном времени

Секвенировании без амплификации
Очень длинные

риды
Производит чтения со средней длиной от 10 000 до 15 000 пар оснований, причем самые длинные риды могут быть более 30 000 пар оснований

28.11.2018

Слайд 46

28.11.2018

Слайд 47

28.11.2018

Слайд 48

Сравнение платформ NGS

28.11.2018

Слайд 49

Контроль качества данных

28.11.2018

Слайд 50

28.11.2018

Слайд 51

Алгоритм контроля качества

28.11.2018

Проверка качества
Определение проблемы
Решение проблемы
Проверка качества
Последующий анализ

Слайд 52

Зачем чистить данные?

28.11.2018

• Риды низкого качества
• Контаминация (примесь ДНК другого организма)
• Служебные последовательности

(адаптеры, индексы)
• Артефакты создания библиотек (некоторые последовательности встречаются чаще, а не равномерно)
• Различный формат данных
• Человеческий фактор

Слайд 53

FASTA и FASTQ форматы

28.11.2018

FASTA

FASTQ

Линия начинающаяся с @ содержит идентификатор последовательности
Последовательность
Линия начинающаяся

с + заполняется факультативно
Линия с величинами качества прочтения, кодируемые в ASCII формате

Слайд 54

Шкала качества Фред (Phred)

28.11.2018

Оценки качества нуклеотида Q определяются как величина, которая логарифмически зависит

от вероятностей ошибки P

Слайд 55

Таблица ASCII символов

28.11.2018

Слайд 56

Разные Phred шкалы

28.11.2018

Слайд 57

Cборка генома

28.11.2018

Слайд 58

28.11.2018

Слайд 59

FastQC – инструмент для контроля качества данных

На вход – исходные данные с секвенатора
HTML

отчет
Графический интерфейс и версия с командной строкой

28.11.2018

www.bioinformatics.babraham.ac.uk/projects/fastqc

Слайд 60

FastQC

28.11.2018

Слайд 61

FastQC: распределение качества по остаткам

28.11.2018

Плохое

Хорошее

У Illumina качество ридов обычно уменьшается к 3' концу

Слайд 62

28.11.2018

FastQC: распределение качества по ридам

Плохое

Хорошее

Мы можем выделить группы ридов с низким и высоким

качеством

Слайд 63

28.11.2018

FastQC: распределение качества по составу остатков

Плохое

Хорошее

Мы можем определить адаптеры или сдвиг

Слайд 64

28.11.2018

FastQC: распределение ридов по GC составу

Плохо

Хорошо

GC пики могут свидетельствовать о контаминации

Слайд 65

28.11.2018

FastQC: уровни дупликаций последовательностей

Плохо

Хорошо

Высокий уровень дупликации свидетельствует об оверамплификации некоторых последовательностей при PCR

Слайд 66

28.11.2018

FastQC: Overrepresented sequences

Плохо

Хорошо

Перепредставленные последовательности могут показывать источник контаминации

Слайд 67

28.11.2018

FastQC: Качество ячеек

Плохо

Хорошо

У Illumina можно определить проблемы с ячейками

Слайд 68

Шаги препроцессинга

Фильтрация данных по качеству
Удаление ридов, качество которых ниже определенного порога;
Обрезание части ридов,

где качество плохое
Удаление контаминации
Биологическая контаминация: определение и удаление ридов
Контаминация адапторами: вырезание адапторов и удаление поврежденных ридов

28.11.2018

Слайд 69

У нас есть очищенные данные. Что дальше?

Сборка de novo
Сборка по референсному геному
Выравнивание с

референсным геномом

28.11.2018

Слайд 70

Сборка de novo

28.11.2018

Возьмем большое количество коротких секвенированных ридов и поместим их вместе, чтобы

воссоздать полный оригинальный геном из которого они были получены

Слайд 71

Секвенирование геномов с использованием коротких ридов

28.11.2018

Слайд 72

План сборки

28.11.2018

Слайд 73

Разноразмерные библиотеки ДНК

28.11.2018

Слайд 74

28.11.2018

http://lucigen.com/landingpage/matepair/

Слайд 75

Сборка генома в идеальном случае

28.11.2018

Однородное покрытие ридами, нет ошибок и контаминации

Слайд 76

Сборка генома в реальности

28.11.2018

Слайд 77

28.11.2018

Кафедра биоинформатики МБФ РНИМУ

Слайд 78

Выбор правильной программы - сборщика геномов (ассемблер)

На сколько большой геном?
Существуют ли известные особенности

этого генома (например, наличие большого числа повторов, GC состав)?
Какое количество данных ожидается?
Какого типа данные у вас есть?
Какое качество данных и необходим ли их препроцессинг перед сборкой генома?

28.11.2018

Слайд 79

Сборщики геномов

28.11.2018

Слайд 80

Оценка качества сборки генома

Количество контигов
Общая длинна всех контигов
Длинна наибольшего контига
Количество неправильно собранных контигов
Количество

идентифицированных генов
GC состав %
N50

28.11.2018

Слайд 81

N50

Размер контига, который представляет из себя наиболее длинный контиг, такой, начиная с которого,

все остальные контиги составляют не менее 50% длинны генома.

28.11.2018

Слайд 82

QUAST - QUality ASsesment Tool for Genome Assemblies

28.11.2018

http://quast.bioinf.spbau.ru/

Слайд 83

28.11.2018

Слайд 84

Реальные графы де Брюйна

28.11.2018

Слайд 85

Улучшение сборки генома

28.11.2018

Слайд 86

Гибридная сборка

28.11.2018

Слайд 87

Сборка на основе данных PacBio

28.11.2018

Слайд 88

Получение финишного генома

28.11.2018

Слайд 89

Зачем нужны финишные геномы?

Функциональные геномные исследования требуют высококачественной, полной последовательности генома в качестве

отправной точки
Сравнительная геномика имеет смысл только в терминах полных последовательностей генома
Исследования бактериальных геномов требует по крайней мере одной полной эталонной последовательности генома
Финишные геномы помогают в идентификации источника вспышки инфекций и филогенетическом анализе
Полный геном - это постоянный научный ресурс
Полный геном человека является наилучшим источником для улучшения лечения пациентов (переход к персонализированной медицине)

28.11.2018

Слайд 90

GOLD: Genomes OnLine Database

28.11.2018

Слайд 91

Статистика GOLD

28.11.2018

Слайд 92

Статистика GOLD

28.11.2018

Слайд 93

Статистика GOLD

28.11.2018

Слайд 94

Статистика GOLD

28.11.2018

Слайд 95

NCBI Genome

28.11.2018

Слайд 96

NCBI Genome

28.11.2018

Слайд 97

NCBI Genome

28.11.2018

Слайд 98

NCBI Genome

28.11.2018

Слайд 99

NCBI SRA database

28.11.2018

Имя файла: Технология-секвенирования-генома-и-сборка-генома.-Лекция-8.pptx
Количество просмотров: 147
Количество скачиваний: 1