Технология секвенирования генома и сборка генома. Лекция 8 презентация

Содержание

Слайд 2

ДНК секвенирование Подход для определения нуклеотидной последовательности ДНК (дезоксирибонуклеиновой кислоты) 28.11.2018

ДНК секвенирование

Подход для определения нуклеотидной последовательности ДНК (дезоксирибонуклеиновой кислоты)

28.11.2018

Слайд 3

28.11.2018

28.11.2018

Слайд 4

28.11.2018

28.11.2018

Слайд 5

Применение NGS 28.11.2018

Применение NGS

28.11.2018

Слайд 6

Основные термины Геномные библиотеки - это коллекция геномной ДНК полученная

Основные термины

Геномные библиотеки - это коллекция геномной ДНК полученная от одного

организма и подготовленная для секвенирования
Sequence Read (сиквенсное прочтение, рид) - нуклеотидная последовательность определённая секвенатором
Производительность секвенатора - набор сиквенсных прочтений, полученных во время одного запуска секвенатора. Выражается в количестве прочитанных нуклеотидов: 1000, 100 тыс., миллионы, миллиарды нуклеотидов
Уровень ошибок – доля неправильных нуклеотидов определенная при секвенировании

28.11.2018

Слайд 7

Первые методы секвенирования Maxam-Gilbert (1976-1977) Sanger (1977) 28.11.2018

Первые методы секвенирования

Maxam-Gilbert (1976-1977)
Sanger (1977)

28.11.2018

Слайд 8

28.11.2018 Нуклеотид-специфическая деградация ДНК при обработке различными веществами

28.11.2018

Нуклеотид-специфическая деградация ДНК при обработке различными веществами

Слайд 9

Секвенирование по Сенгеру (Золотой стандарт) 28.11.2018 Phi X 174 (ΦX174)

Секвенирование по Сенгеру (Золотой стандарт)

28.11.2018

Phi X 174 (ΦX174) бактериофаг был первым

секвенированным ДНК геномом (5386 нуклеотидов) в 1977 году

Длинна секвенирования:
300-1000 bp
Ошибки: 0.1-1%

Слайд 10

Полногеномное секвенирование с использованием метода Сенгера 28.11.2018

Полногеномное секвенирование с использованием метода Сенгера

28.11.2018

Слайд 11

Проект геном человека Размер генома – 3.2 Гб Длительность –

Проект геном человека

Размер генома – 3.2 Гб
Длительность – 10 лет
1990 –

2000
Цена – 3 млрд. $
Метод - секвенирование по Сенгеру

28.11.2018

Слайд 12

Секвенирование по Сенгеру Плюсы: Относительно низкий уровень ошибок Удобное и

Секвенирование по Сенгеру

Плюсы:
Относительно низкий уровень ошибок
Удобное и дешевое секвенирование небольших фрагментов

генома (16S РНК, Hsp65, и т.д.)
Минусы:
Высокая стоимость полногеномного секвенирования
Трудоемкость
Низкая производительность

28.11.2018

Слайд 13

28.11.2018

28.11.2018

Слайд 14

New Generation Sequencing 28.11.2018 Плюсы: Простая подготовка ДНК библиотек (пробоподготовка)

New Generation Sequencing

28.11.2018

Плюсы:
Простая подготовка ДНК библиотек (пробоподготовка)
Высокая производительность
Низкая стоимость секвенирования
Минусы:
Короткие риды
Относительно

высокий уровень ошибок
Слайд 15

Основные принципы подготовки ДНК библиотек Фрагментация ДНК Отбор размера Лигирование адаптора Амплификация библиотеки 28.11.2018

Основные принципы подготовки ДНК библиотек

Фрагментация ДНК
Отбор размера
Лигирование адаптора
Амплификация библиотеки

28.11.2018

Слайд 16

Стратегия полногеномного секвенирования использует NGS платформы 28.11.2018

Стратегия полногеномного секвенирования использует NGS платформы

28.11.2018

Слайд 17

Контиг (Contig) - группа перекрывающихся прочтений, представляющие участок генома. 28.11.2018

Контиг (Contig) - группа перекрывающихся прочтений, представляющие участок генома.

28.11.2018

Contig is a

group of overlapping clones representing regions of the genome; the contiguous sequence of DNA created by assembling these overlapping chromosome fragments.
Definition from: NCI Thesaurus via Unified Medical Language System at the National Library of Medicine
Слайд 18

Scaffold (Скафолд) – реконструированная часть генома, полученная в результате анализа

Scaffold (Скафолд) – реконструированная часть генома, полученная в результате анализа библиотек

большого размера и правильного взаимного расположения контигов

28.11.2018

Scaffold is a portion of the genome sequence reconstructed from end-sequenced
whole-genome shotgun clones. Scaffolds are composed of contigs and gaps.
Definition from: http://genome.jgi-psf.org/help/scaffolds.html

Слайд 19

28.11.2018

28.11.2018

Слайд 20

Таргетное секвенирование 28.11.2018 Nature Methods 7, 111 - 118 (2010)

Таргетное секвенирование

28.11.2018

Nature Methods 7, 111 - 118 (2010)

Слайд 21

Индексирование (Баркодинг) Можно за один запуск секвенатора прочитать несколько геномов

Индексирование (Баркодинг)

Можно за один запуск секвенатора прочитать несколько геномов или геномных

участков
Индексы – короткие олигонуклеотиды с различной последовательностью, которые фланкируют ДНК библиотеки и секвенируются вместе с целевой ДНК. На основе известной индексной последовательности можно дифференцировать несколько образцов секвенированных в одно время.

28.11.2018

Слайд 22

Примеры индексов 28.11.2018

Примеры индексов

28.11.2018

Слайд 23

Платформы 28.11.2018

Платформы

28.11.2018

Слайд 24

28.11.2018

28.11.2018

Слайд 25

454 Sequencing Technology 28.11.2018 Фрагментация ДНК Подготовка библиотеки Пришивание адапторов к молекулам ДНК с двух концов.

454 Sequencing Technology

28.11.2018

Фрагментация ДНК

Подготовка библиотеки
Пришивание адапторов к молекулам ДНК с двух

концов.
Слайд 26

28.11.2018 Один фрагмент = одна бусина (bead) Библиотека фрагментов ДНК

28.11.2018

Один фрагмент = одна бусина (bead)
Библиотека фрагментов ДНК прикрепляется к бусинам

после денатурации ДНК. Каждая бусина имеет уникальный фрагмент библиотеки. Шарики эмульгируют с реагентами амплификации в смеси вода-в-масле.

emPCR: Эмульсионная ПЦР-амплификация
Амплификация ведется в эмульсии параллельно, чтобы создать миллионы клонных копий каждого фрагмента библиотеки на каждом шарике. Если фрагмент не присоединяется к шарику, то он остается гладким.

Секвенирование: один шарик = один рид
Шарик помещается в лунку, где дизайн поверхности допускает только один шарик. Отдельные нуклеотиды протекают последовательно через лунки. Каждое включение нуклеотида, комплементарное к матричной нити, приводит к хемилюминесцентному световому сигналу, записанному камерой.

Слайд 27

28.11.2018 Секвенирование начинается с присоединения праймера, потом присоединение комплементарного нуклеотида

28.11.2018

Секвенирование начинается с присоединения праймера, потом присоединение комплементарного нуклеотида приводит к

высвобождению пирофосфата, который взаимодействуя с сулфирилазой и люциферазой приводит к образованию светового сигнала, детектируемого камерой.

По интенсивности сигнала определяется какое количество нуклеотидов присоединяется. При этом зная какие нуклеотиды подаются в текущее время определяют последовательность ДНК.

Слайд 28

28.11.2018

28.11.2018

Слайд 29

Ion Torrent Подготовка библиотеки похожа на Roche 454 • фрагментация

Ion Torrent

Подготовка библиотеки похожа на Roche 454
• фрагментация ДНК
• Прикрепление адаптера

Эмульсионная ПЦР
Технология секвенирования отличается

28.11.2018

Слайд 30

Ion Torrent полупроводниковое секвенирование 28.11.2018 Во время секвенирования, последовательно подаются

Ion Torrent полупроводниковое секвенирование

28.11.2018

Во время секвенирования, последовательно подаются нуклеотиды, при встраивании

которых выделяются ионы водорода.
Слайд 31

28.11.2018 Ion Torrent полупроводниковое секвенирование Выделение ионов водорода приводит к

28.11.2018

Ion Torrent полупроводниковое секвенирование

Выделение ионов водорода приводит к изменению кислотности среды,

что детектируются высокочувствительным pH-метром
Слайд 32

28.11.2018 Ion Torrent полупроводниковое секвенирование

28.11.2018

Ion Torrent полупроводниковое секвенирование

Слайд 33

28.11.2018 Ion Torrent полупроводниковое секвенирование

28.11.2018

Ion Torrent полупроводниковое секвенирование

Слайд 34

28.11.2018

28.11.2018

Слайд 35

SOLiD 28.11.2018 Подготовка библиотеки похожа на Roche 454 • фрагментация

SOLiD

28.11.2018

Подготовка библиотеки похожа на Roche 454
• фрагментация ДНК
• Прикрепление адаптера
• Эмульсионная

ПЦР
Технология секвенирования отличается - секвенирование путем лигирования олигонуклеотидов
Слайд 36

SOLiD 28.11.2018

SOLiD

28.11.2018

Слайд 37

SOLiD 28.11.2018 Происходит последовательное взаимодействие олигонуклеотида, состоящего из специфичного динуклеотида,

SOLiD

28.11.2018

Происходит последовательное взаимодействие олигонуклеотида, состоящего из специфичного динуклеотида, пяти неспецифичных нуклеотидов

и флуорафора, что приводит к специфическому связыванию динуклеотида (лигирование) и отщеплению флуорафора и детекция флуоресцентного сигнала.
Слайд 38

SOLiD 28.11.2018 Для борьбы с неспецифичными нуклеотидами используют новые праймеры,

SOLiD

28.11.2018

Для борьбы с неспецифичными нуклеотидами используют новые праймеры, которые короче на

1,2,3,4 нуклеотида (всего 5 раундов секвенирования). Это увеличивает точность секвенирования, т.к. каждый нуклеотид прочитывается дважды, но длина ридов небольшая.
Слайд 39

Все описанные технологии обеспечивают односторонние прочтения ДНК 28.11.2018

Все описанные технологии обеспечивают односторонние прочтения ДНК

28.11.2018

Слайд 40

28.11.2018

28.11.2018

Слайд 41

Подготовка библиотеки ДНК 28.11.2018

Подготовка библиотеки ДНК

28.11.2018

Слайд 42

Illumina Гибридизация ДНК-библиотек Генерация кластеров (ПЦР) Секвенирование синтезом 28.11.2018 http://www.youtube.com/watch?v=HMyCqWhwB8E

Illumina

Гибридизация ДНК-библиотек
Генерация кластеров (ПЦР)
Секвенирование синтезом

28.11.2018

http://www.youtube.com/watch?v=HMyCqWhwB8E

Слайд 43

28.11.2018 Illumina

28.11.2018

Illumina

Слайд 44

28.11.2018 Illumina

28.11.2018

Illumina

Слайд 45

Pacific Biosciences single molecule real-time (SMRT) sequencing Одномолекулярное секвенирование в

Pacific Biosciences single molecule real-time (SMRT) sequencing Одномолекулярное секвенирование в реальном времени

Секвенировании без

амплификации
Очень длинные риды
Производит чтения со средней длиной от 10 000 до 15 000 пар оснований, причем самые длинные риды могут быть более 30 000 пар оснований

28.11.2018

Слайд 46

28.11.2018

28.11.2018

Слайд 47

28.11.2018

28.11.2018

Слайд 48

Сравнение платформ NGS 28.11.2018

Сравнение платформ NGS

28.11.2018

Слайд 49

Контроль качества данных 28.11.2018

Контроль качества данных

28.11.2018

Слайд 50

28.11.2018

28.11.2018

Слайд 51

Алгоритм контроля качества 28.11.2018 Проверка качества Определение проблемы Решение проблемы Проверка качества Последующий анализ

Алгоритм контроля качества

28.11.2018

Проверка качества
Определение проблемы
Решение проблемы
Проверка качества
Последующий анализ

Слайд 52

Зачем чистить данные? 28.11.2018 • Риды низкого качества • Контаминация

Зачем чистить данные?

28.11.2018

• Риды низкого качества
• Контаминация (примесь ДНК другого организма)

Служебные последовательности (адаптеры, индексы)
• Артефакты создания библиотек (некоторые последовательности встречаются чаще, а не равномерно)
• Различный формат данных
• Человеческий фактор
Слайд 53

FASTA и FASTQ форматы 28.11.2018 FASTA FASTQ Линия начинающаяся с

FASTA и FASTQ форматы

28.11.2018

FASTA

FASTQ

Линия начинающаяся с @ содержит идентификатор

последовательности
Последовательность
Линия начинающаяся с + заполняется факультативно
Линия с величинами качества прочтения, кодируемые в ASCII формате
Слайд 54

Шкала качества Фред (Phred) 28.11.2018 Оценки качества нуклеотида Q определяются

Шкала качества Фред (Phred)

28.11.2018

Оценки качества нуклеотида Q определяются как величина, которая

логарифмически зависит от вероятностей ошибки P
Слайд 55

Таблица ASCII символов 28.11.2018

Таблица ASCII символов

28.11.2018

Слайд 56

Разные Phred шкалы 28.11.2018

Разные Phred шкалы

28.11.2018

Слайд 57

Cборка генома 28.11.2018

Cборка генома

28.11.2018

Слайд 58

28.11.2018

28.11.2018

Слайд 59

FastQC – инструмент для контроля качества данных На вход –

FastQC – инструмент для контроля качества данных

На вход – исходные данные

с секвенатора
HTML отчет
Графический интерфейс и версия с командной строкой

28.11.2018

www.bioinformatics.babraham.ac.uk/projects/fastqc

Слайд 60

FastQC 28.11.2018

FastQC

28.11.2018

Слайд 61

FastQC: распределение качества по остаткам 28.11.2018 Плохое Хорошее У Illumina

FastQC: распределение качества по остаткам

28.11.2018

Плохое

Хорошее

У Illumina качество ридов обычно уменьшается к

3' концу
Слайд 62

28.11.2018 FastQC: распределение качества по ридам Плохое Хорошее Мы можем

28.11.2018

FastQC: распределение качества по ридам

Плохое

Хорошее

Мы можем выделить группы ридов с низким

и высоким качеством
Слайд 63

28.11.2018 FastQC: распределение качества по составу остатков Плохое Хорошее Мы можем определить адаптеры или сдвиг

28.11.2018

FastQC: распределение качества по составу остатков

Плохое

Хорошее

Мы можем определить адаптеры или сдвиг


Слайд 64

28.11.2018 FastQC: распределение ридов по GC составу Плохо Хорошо GC пики могут свидетельствовать о контаминации

28.11.2018

FastQC: распределение ридов по GC составу

Плохо

Хорошо

GC пики могут свидетельствовать о контаминации


Слайд 65

28.11.2018 FastQC: уровни дупликаций последовательностей Плохо Хорошо Высокий уровень дупликации

28.11.2018

FastQC: уровни дупликаций последовательностей

Плохо

Хорошо

Высокий уровень дупликации свидетельствует об оверамплификации некоторых последовательностей

при PCR
Слайд 66

28.11.2018 FastQC: Overrepresented sequences Плохо Хорошо Перепредставленные последовательности могут показывать источник контаминации

28.11.2018

FastQC: Overrepresented sequences

Плохо

Хорошо

Перепредставленные последовательности могут показывать источник контаминации

Слайд 67

28.11.2018 FastQC: Качество ячеек Плохо Хорошо У Illumina можно определить проблемы с ячейками

28.11.2018

FastQC: Качество ячеек

Плохо

Хорошо

У Illumina можно определить проблемы с ячейками

Слайд 68

Шаги препроцессинга Фильтрация данных по качеству Удаление ридов, качество которых

Шаги препроцессинга

Фильтрация данных по качеству
Удаление ридов, качество которых ниже определенного порога;
Обрезание

части ридов, где качество плохое
Удаление контаминации
Биологическая контаминация: определение и удаление ридов
Контаминация адапторами: вырезание адапторов и удаление поврежденных ридов

28.11.2018

Слайд 69

У нас есть очищенные данные. Что дальше? Сборка de novo

У нас есть очищенные данные. Что дальше?

Сборка de novo
Сборка по референсному

геному
Выравнивание с референсным геномом

28.11.2018

Слайд 70

Сборка de novo 28.11.2018 Возьмем большое количество коротких секвенированных ридов

Сборка de novo

28.11.2018

Возьмем большое количество коротких секвенированных ридов и поместим их

вместе, чтобы воссоздать полный оригинальный геном из которого они были получены
Слайд 71

Секвенирование геномов с использованием коротких ридов 28.11.2018

Секвенирование геномов с использованием коротких ридов

28.11.2018

Слайд 72

План сборки 28.11.2018

План сборки

28.11.2018

Слайд 73

Разноразмерные библиотеки ДНК 28.11.2018

Разноразмерные библиотеки ДНК

28.11.2018

Слайд 74

28.11.2018 http://lucigen.com/landingpage/matepair/

28.11.2018

http://lucigen.com/landingpage/matepair/

Слайд 75

Сборка генома в идеальном случае 28.11.2018 Однородное покрытие ридами, нет ошибок и контаминации

Сборка генома в идеальном случае

28.11.2018

Однородное покрытие ридами, нет ошибок и контаминации

Слайд 76

Сборка генома в реальности 28.11.2018

Сборка генома в реальности

28.11.2018

Слайд 77

28.11.2018 Кафедра биоинформатики МБФ РНИМУ

28.11.2018

Кафедра биоинформатики МБФ РНИМУ

Слайд 78

Выбор правильной программы - сборщика геномов (ассемблер) На сколько большой

Выбор правильной программы - сборщика геномов (ассемблер)

На сколько большой геном?
Существуют ли

известные особенности этого генома (например, наличие большого числа повторов, GC состав)?
Какое количество данных ожидается?
Какого типа данные у вас есть?
Какое качество данных и необходим ли их препроцессинг перед сборкой генома?

28.11.2018

Слайд 79

Сборщики геномов 28.11.2018

Сборщики геномов

28.11.2018

Слайд 80

Оценка качества сборки генома Количество контигов Общая длинна всех контигов

Оценка качества сборки генома

Количество контигов
Общая длинна всех контигов
Длинна наибольшего контига
Количество неправильно

собранных контигов
Количество идентифицированных генов
GC состав %
N50

28.11.2018

Слайд 81

N50 Размер контига, который представляет из себя наиболее длинный контиг,

N50

Размер контига, который представляет из себя наиболее длинный контиг, такой, начиная

с которого, все остальные контиги составляют не менее 50% длинны генома.

28.11.2018

Слайд 82

QUAST - QUality ASsesment Tool for Genome Assemblies 28.11.2018 http://quast.bioinf.spbau.ru/

QUAST - QUality ASsesment Tool for Genome Assemblies

28.11.2018

http://quast.bioinf.spbau.ru/

Слайд 83

28.11.2018

28.11.2018

Слайд 84

Реальные графы де Брюйна 28.11.2018

Реальные графы де Брюйна

28.11.2018

Слайд 85

Улучшение сборки генома 28.11.2018

Улучшение сборки генома

28.11.2018

Слайд 86

Гибридная сборка 28.11.2018

Гибридная сборка

28.11.2018

Слайд 87

Сборка на основе данных PacBio 28.11.2018

Сборка на основе данных PacBio

28.11.2018

Слайд 88

Получение финишного генома 28.11.2018

Получение финишного генома

28.11.2018

Слайд 89

Зачем нужны финишные геномы? Функциональные геномные исследования требуют высококачественной, полной

Зачем нужны финишные геномы?

Функциональные геномные исследования требуют высококачественной, полной последовательности генома

в качестве отправной точки
Сравнительная геномика имеет смысл только в терминах полных последовательностей генома
Исследования бактериальных геномов требует по крайней мере одной полной эталонной последовательности генома
Финишные геномы помогают в идентификации источника вспышки инфекций и филогенетическом анализе
Полный геном - это постоянный научный ресурс
Полный геном человека является наилучшим источником для улучшения лечения пациентов (переход к персонализированной медицине)

28.11.2018

Слайд 90

GOLD: Genomes OnLine Database 28.11.2018

GOLD: Genomes OnLine Database

28.11.2018

Слайд 91

Статистика GOLD 28.11.2018

Статистика GOLD

28.11.2018

Слайд 92

Статистика GOLD 28.11.2018

Статистика GOLD

28.11.2018

Слайд 93

Статистика GOLD 28.11.2018

Статистика GOLD

28.11.2018

Слайд 94

Статистика GOLD 28.11.2018

Статистика GOLD

28.11.2018

Слайд 95

NCBI Genome 28.11.2018

NCBI Genome

28.11.2018

Слайд 96

NCBI Genome 28.11.2018

NCBI Genome

28.11.2018

Слайд 97

NCBI Genome 28.11.2018

NCBI Genome

28.11.2018

Слайд 98

NCBI Genome 28.11.2018

NCBI Genome

28.11.2018

Слайд 99

NCBI SRA database 28.11.2018

NCBI SRA database

28.11.2018

Имя файла: Технология-секвенирования-генома-и-сборка-генома.-Лекция-8.pptx
Количество просмотров: 169
Количество скачиваний: 1