Введение в глубокое обучение презентация

Содержание

Слайд 2

План лекции Ограничения линейных моделей Модель глубокого обучения Вычислительные возможности

План лекции

Ограничения линейных моделей
Модель глубокого обучения
Вычислительные возможности нейросетей
Слои моделей
Функция активации
Обратное распространение

ошибки
Реализации функции активации
Эвристики стохастического градиентного спуска
Нормировка признаков
Регуляризация (прореживание)
Слайд 3

Ограничения линейных моделей Работают только с линейными зависимостями Сами не

Ограничения линейных моделей

Работают только с линейными зависимостями
Сами не конструируют высокоабстрактные признаки
текстовые

данные
графические данные
Слайд 4

Задача «исключающего ИЛИ»

Задача «исключающего ИЛИ»

Слайд 5

Задача «исключающего ИЛИ»

Задача «исключающего ИЛИ»

Слайд 6

Задача «исключающего ИЛИ»

Задача «исключающего ИЛИ»

Слайд 7

Задача «исключающего ИЛИ»

Задача «исключающего ИЛИ»

Слайд 8

Задача «исключающего ИЛИ» Таким образом два решения: конструирование нового признака

Задача «исключающего ИЛИ»

Таким образом два решения:
конструирование нового признака на основе исходных

(сложно)
построение композиции моделей
Слайд 9

Новый подход

Новый подход

Слайд 10

Новый подход перцептрон (МакКаллок и Питтс, 1943 год) искусственный нейрон

Новый подход

перцептрон (МакКаллок и Питтс, 1943 год)

искусственный нейрон

Слайд 11

Модель глубокого обучения (нейросеть)

Модель глубокого обучения (нейросеть)

Слайд 12

Модель глубокого обучения (нейросеть)

Модель глубокого обучения (нейросеть)

Слайд 13

Модель глубокого обучения (нейросеть)

Модель глубокого обучения (нейросеть)

Слайд 14

Вычислительные возможности нейросетей Теорема Вейерштрасса – Стоуна Теорема Колмогорова –

Вычислительные возможности нейросетей

Теорема Вейерштрасса – Стоуна
Теорема Колмогорова – Арнольда (13 проблема

Гильберта)
Универсальная теорема аппроксимации (теорема Цыбенко) Двухслойная сеть может аппроксимировать любую непрерывную функцию многих переменных с любой точностью при достаточном количестве скрытых нейронов
Обобщенная аппроксимационная теорема (теорема Горбаня) С помощью линейных операций и одной нелинейной функции активации можно приблизить любую непрерывную функцию с любой желаемой точностью
Слайд 15

Вычислительные возможности нейросетей Несколько замечаний: двух слоёв достаточно для аппроксимации

Вычислительные возможности нейросетей

Несколько замечаний:
двух слоёв достаточно для аппроксимации практически всех «математических»

функций
нейросети обучаются преобразованию признаков
глубина сети позволяет распознавать и конструировать высокоабстрактные признаки
Слайд 16

Слои модели

Слои модели

Слайд 17

Слои модели

Слои модели

Слайд 18

Слои модели модель состоит из взаимосвязанных слоёв (Layers) самый простой

Слои модели

модель состоит из взаимосвязанных слоёв (Layers)
самый простой и распространённый слой

– плотный (Dense), но есть и другие ...
первый слой – входной, последний – выходной
выходной слой, по сути, это линейная модель
скрытые слои – все слои кроме последнего
слои хранят параметры (веса) модели
Слайд 19

Функция активации функция активации

Функция активации

функция активации

Слайд 20

Функция активации Несколько замечаний: применяется после линейного преобразования признаков отвечает

Функция активации

Несколько замечаний:
применяется после линейного преобразования признаков
отвечает за нелинейность
главное требование –

дифференцируемость
может быть реализована различными функциями
Слайд 21

Обучение модели

Обучение модели

Слайд 22

Обучение модели Напоминание: функция потерь численно определяет, на сколько решена

Обучение модели

Напоминание:
функция потерь численно определяет, на сколько решена задача
оптимизатор корректирует параметры

модели в сторону оптимальных
у линейных моделей оптимизатор использовал метод SGD
Слайд 23

Обучение модели Каким методом будем обучать нейросеть? Стохастическим градиентным спуском

Обучение модели

Каким методом будем обучать нейросеть?

Стохастическим градиентным спуском

Слайд 24

Обратное распространение ошибки Он же: backpropagation цепное правило производная сложной функции

Обратное распространение ошибки

Он же:
backpropagation
цепное правило
производная сложной функции

Слайд 25

Обратное распространение ошибки

Обратное распространение ошибки

Слайд 26

Обратное распространение ошибки

Обратное распространение ошибки

Слайд 27

Алгоритм обратного распространения ошибки

Алгоритм обратного распространения ошибки

Слайд 28

Обратное распространение ошибки Плюсы метода: вычисляется, практически рекурсивно, что даёт

Обратное распространение ошибки

Плюсы метода:
вычисляется, практически рекурсивно, что даёт скорость
работает

с любой шириной, глубиной сети и функциями активации
возможность распараллелить
Минусы:
медленная сходимость
застревание в локальных экстремумах
«паралич» сети из-за горизонтальных асимптот сигмоиды
проблема переобучения
подбор – искусство
Слайд 29

Модель глубокого обучения Предварительные выводы: модели глубокого обучения состоят из

Модель глубокого обучения

Предварительные выводы:
модели глубокого обучения состоят из взаимосвязанных слоёв
слои хранят

параметры модели
слои состоят из нейронов (иногда называют ядра)
выходное значение нейрона подаётся на функцию активации
обучаются модели с помощью метода обратного распространения ошибки, который использует две идеи:
метод случайного градиентного спуска
производная сложной функции
Сайт для представления, как нейросети обучаются
http://playground.tensorflow.org
Слайд 30

Функция активации: сигмоида Минусы: на плечах производная ноль ОДЗ не центрирована вычисление экспоненты

Функция активации: сигмоида

Минусы:
на плечах производная ноль
ОДЗ не центрирована
вычисление экспоненты

Слайд 31

Функция активации: гиперболический тангенс Плюсы: центрирован Минусы: на плечах производная ноль ОДЗ не центрирована вычисление экспоненты

Функция активации: гиперболический тангенс

Плюсы:
центрирован
Минусы:
на плечах производная ноль
ОДЗ не центрирована
вычисление экспоненты

Слайд 32

Функция активации: ReLU Плюсы: центрирована нелинейная быстрая дифференцируемая Минусы: не центрирована

Функция активации: ReLU

Плюсы:
центрирована
нелинейная
быстрая
дифференцируемая
Минусы:
не центрирована

Слайд 33

Функция активации: Leaky ReLU Плюсы: центрирована нелинейная быстрая дифференцируемая «центрирована»

Функция активации: Leaky ReLU

Плюсы:
центрирована
нелинейная
быстрая
дифференцируемая
«центрирована»

Слайд 34

Различные функции активации

Различные функции активации

Слайд 35

Различные функции активации Замечание: ReLU – отправная точка изменяйте аккуратно

Различные функции активации

Замечание:
ReLU – отправная точка
изменяйте аккуратно скорость обучения
попробуйте Leaky ReLU

или ELU
вряд ли гиперболический тангенс взлетит
не используйте сигмоиду
Слайд 36

Недостатки SGD застревание в локальных экстремумах «медленная» сходимость

Недостатки SGD

застревание в локальных экстремумах
«медленная» сходимость

Слайд 37

Эвристики SGD: Momentum

Эвристики SGD: Momentum

Слайд 38

Эвристики SGD: Momentum

Эвристики SGD: Momentum

Слайд 39

Эвристики SGD: Momentum

Эвристики SGD: Momentum

Слайд 40

Эвристики SGD: AdaGrad и RMSProp

Эвристики SGD: AdaGrad и RMSProp

Слайд 41

Эвристики SGD: Adam Включает в себя все перечисленные подходы

Эвристики SGD: Adam

Включает в себя все перечисленные подходы

Слайд 42

Эвристики SGD

Эвристики SGD

Слайд 43

Эвристики SGD: подбор скорости обучения

Эвристики SGD: подбор скорости обучения

Слайд 44

Эвристики SGD Замечание: чем навороченней эвристика, тем больше требуется памяти

Эвристики SGD

Замечание:
чем навороченней эвристика, тем больше требуется памяти для хранения кэшей,

моментов и т.д.
тем не менее Adam – хороший выбор для начала
байка про Карпатого
уменьшайте скорость обучения по мере сходимости
динамически проверяйте качество
Слайд 45

Эвристики SGD

Эвристики SGD

Слайд 46

Нормировка признаков

Нормировка признаков

Слайд 47

Нормировка признаков Замечание: модель, обученная на нормированных признаках, менее чувствительна

Нормировка признаков

Замечание:
модель, обученная на нормированных признаках, менее чувствительна к изменениям в

данных
градиентный спуск лучше сойдётся
Слайд 48

Нормализация батча

Нормализация батча

Слайд 49

Нормализация батча Замечание: позволяет решить проблему метода обратного распространения ошибки:

Нормализация батча

Замечание:
позволяет решить проблему метода обратного распространения ошибки: параметры модели оптимизируются

«несогласовано»
намного ускоряет сходимость
позволяет увеличить скорость обучения
Слайд 50

Регуляризация Прореживание (Dropout)

Регуляризация

Прореживание (Dropout)

Слайд 51

Регуляризация: прореживание прореживание (dropout) – приравнивание к нулю случайно выбираемых

Регуляризация: прореживание

прореживание (dropout) – приравнивание к нулю случайно выбираемых признаков на

этапе обучения
на этапе валидации используются все признаки, но выход слоя умножается на понижающий коэффициент
позволяет предотвратить переобучение
Имя файла: Введение-в-глубокое-обучение.pptx
Количество просмотров: 17
Количество скачиваний: 0