Введение в глубокое обучение презентация

Март 2, 2023

Главная
Информатика
Введение в глубокое обучение

Содержание

2. План лекции Ограничения линейных моделей Модель глубокого обучения Вычислительные возможности нейросетей Слои моделей Функция активации Обратное
3. Ограничения линейных моделей Работают только с линейными зависимостями Сами не конструируют высокоабстрактные признаки текстовые данные графические
4. Задача «исключающего ИЛИ»
5. Задача «исключающего ИЛИ»
6. Задача «исключающего ИЛИ»
7. Задача «исключающего ИЛИ»
8. Задача «исключающего ИЛИ» Таким образом два решения: конструирование нового признака на основе исходных (сложно) построение композиции
9. Новый подход
10. Новый подход перцептрон (МакКаллок и Питтс, 1943 год) искусственный нейрон
11. Модель глубокого обучения (нейросеть)
12. Модель глубокого обучения (нейросеть)
13. Модель глубокого обучения (нейросеть)
14. Вычислительные возможности нейросетей Теорема Вейерштрасса – Стоуна Теорема Колмогорова – Арнольда (13 проблема Гильберта) Универсальная теорема
15. Вычислительные возможности нейросетей Несколько замечаний: двух слоёв достаточно для аппроксимации практически всех «математических» функций нейросети обучаются
16. Слои модели
17. Слои модели
18. Слои модели модель состоит из взаимосвязанных слоёв (Layers) самый простой и распространённый слой – плотный (Dense),
19. Функция активации функция активации
20. Функция активации Несколько замечаний: применяется после линейного преобразования признаков отвечает за нелинейность главное требование – дифференцируемость
21. Обучение модели
22. Обучение модели Напоминание: функция потерь численно определяет, на сколько решена задача оптимизатор корректирует параметры модели в
23. Обучение модели Каким методом будем обучать нейросеть? Стохастическим градиентным спуском
24. Обратное распространение ошибки Он же: backpropagation цепное правило производная сложной функции
25. Обратное распространение ошибки
26. Обратное распространение ошибки
27. Алгоритм обратного распространения ошибки
28. Обратное распространение ошибки Плюсы метода: вычисляется, практически рекурсивно, что даёт скорость работает с любой шириной, глубиной
29. Модель глубокого обучения Предварительные выводы: модели глубокого обучения состоят из взаимосвязанных слоёв слои хранят параметры модели
30. Функция активации: сигмоида Минусы: на плечах производная ноль ОДЗ не центрирована вычисление экспоненты
31. Функция активации: гиперболический тангенс Плюсы: центрирован Минусы: на плечах производная ноль ОДЗ не центрирована вычисление экспоненты
32. Функция активации: ReLU Плюсы: центрирована нелинейная быстрая дифференцируемая Минусы: не центрирована
33. Функция активации: Leaky ReLU Плюсы: центрирована нелинейная быстрая дифференцируемая «центрирована»
34. Различные функции активации
35. Различные функции активации Замечание: ReLU – отправная точка изменяйте аккуратно скорость обучения попробуйте Leaky ReLU или
36. Недостатки SGD застревание в локальных экстремумах «медленная» сходимость
37. Эвристики SGD: Momentum
38. Эвристики SGD: Momentum
39. Эвристики SGD: Momentum
40. Эвристики SGD: AdaGrad и RMSProp
41. Эвристики SGD: Adam Включает в себя все перечисленные подходы
42. Эвристики SGD
43. Эвристики SGD: подбор скорости обучения
44. Эвристики SGD Замечание: чем навороченней эвристика, тем больше требуется памяти для хранения кэшей, моментов и т.д.
45. Эвристики SGD
46. Нормировка признаков
47. Нормировка признаков Замечание: модель, обученная на нормированных признаках, менее чувствительна к изменениям в данных градиентный спуск
48. Нормализация батча
49. Нормализация батча Замечание: позволяет решить проблему метода обратного распространения ошибки: параметры модели оптимизируются «несогласовано» намного ускоряет
50. Регуляризация Прореживание (Dropout)
51. Регуляризация: прореживание прореживание (dropout) – приравнивание к нулю случайно выбираемых признаков на этапе обучения на этапе
53. Скачать презентацию

Слайд 2

План лекции
Ограничения линейных моделей
Модель глубокого обучения
Вычислительные возможности нейросетей
Слои моделей
Функция активации
Обратное распространение

ошибки
Реализации функции активации
Эвристики стохастического градиентного спуска
Нормировка признаков
Регуляризация (прореживание)

Слайд 3

Ограничения линейных моделей
Работают только с линейными зависимостями
Сами не конструируют высокоабстрактные признаки
текстовые

данные
графические данные

Слайд 4

Задача «исключающего ИЛИ»

Слайд 5

Задача «исключающего ИЛИ»

Слайд 6

Задача «исключающего ИЛИ»

Слайд 7

Задача «исключающего ИЛИ»

Слайд 8

Задача «исключающего ИЛИ»
Таким образом два решения:
конструирование нового признака на основе исходных

(сложно)
построение композиции моделей

Слайд 9

Новый подход

Слайд 10

Новый подход
перцептрон (МакКаллок и Питтс, 1943 год)
искусственный нейрон

Слайд 11

Модель глубокого обучения (нейросеть)

Слайд 12

Модель глубокого обучения (нейросеть)

Слайд 13

Модель глубокого обучения (нейросеть)

Слайд 14

Вычислительные возможности нейросетей
Теорема Вейерштрасса – Стоуна
Теорема Колмогорова – Арнольда (13 проблема

Гильберта)
Универсальная теорема аппроксимации (теорема Цыбенко) Двухслойная сеть может аппроксимировать любую непрерывную функцию многих переменных с любой точностью при достаточном количестве скрытых нейронов
Обобщенная аппроксимационная теорема (теорема Горбаня) С помощью линейных операций и одной нелинейной функции активации можно приблизить любую непрерывную функцию с любой желаемой точностью

Слайд 15

Вычислительные возможности нейросетей
Несколько замечаний:
двух слоёв достаточно для аппроксимации практически всех «математических»

функций
нейросети обучаются преобразованию признаков
глубина сети позволяет распознавать и конструировать высокоабстрактные признаки

Слайд 16

Слои модели

Слайд 17

Слои модели

Слайд 18

Слои модели
модель состоит из взаимосвязанных слоёв (Layers)
самый простой и распространённый слой

– плотный (Dense), но есть и другие ...
первый слой – входной, последний – выходной
выходной слой, по сути, это линейная модель
скрытые слои – все слои кроме последнего
слои хранят параметры (веса) модели

Слайд 19

Функция активации
функция активации

Слайд 20

Функция активации
Несколько замечаний:
применяется после линейного преобразования признаков
отвечает за нелинейность
главное требование –

дифференцируемость
может быть реализована различными функциями

Слайд 21

Обучение модели

Слайд 22

Обучение модели
Напоминание:
функция потерь численно определяет, на сколько решена задача
оптимизатор корректирует параметры

модели в сторону оптимальных
у линейных моделей оптимизатор использовал метод SGD

Слайд 23

Обучение модели
Каким методом будем обучать нейросеть?
Стохастическим градиентным спуском

Слайд 24

Обратное распространение ошибки
Он же:
backpropagation
цепное правило
производная сложной функции

Слайд 25

Обратное распространение ошибки

Слайд 26

Обратное распространение ошибки

Слайд 27

Алгоритм обратного распространения ошибки

Слайд 28

Обратное распространение ошибки
Плюсы метода:
вычисляется, практически рекурсивно, что даёт скорость
работает

с любой шириной, глубиной сети и функциями активации
возможность распараллелить
Минусы:
медленная сходимость
застревание в локальных экстремумах
«паралич» сети из-за горизонтальных асимптот сигмоиды
проблема переобучения
подбор – искусство

Слайд 29

Модель глубокого обучения
Предварительные выводы:
модели глубокого обучения состоят из взаимосвязанных слоёв
слои хранят

параметры модели
слои состоят из нейронов (иногда называют ядра)
выходное значение нейрона подаётся на функцию активации
обучаются модели с помощью метода обратного распространения ошибки, который использует две идеи:
метод случайного градиентного спуска
производная сложной функции
Сайт для представления, как нейросети обучаются
http://playground.tensorflow.org

Слайд 30

Функция активации: сигмоида
Минусы:
на плечах производная ноль
ОДЗ не центрирована
вычисление экспоненты

Слайд 31

Функция активации: гиперболический тангенс
Плюсы:
центрирован
Минусы:
на плечах производная ноль
ОДЗ не центрирована
вычисление экспоненты

Слайд 32

Функция активации: ReLU
Плюсы:
центрирована
нелинейная
быстрая
дифференцируемая
Минусы:
не центрирована

Слайд 33

Функция активации: Leaky ReLU
Плюсы:
центрирована
нелинейная
быстрая
дифференцируемая
«центрирована»

Слайд 34

Различные функции активации

Слайд 35

Различные функции активации
Замечание:
ReLU – отправная точка
изменяйте аккуратно скорость обучения
попробуйте Leaky ReLU

или ELU
вряд ли гиперболический тангенс взлетит
не используйте сигмоиду

Слайд 36

Недостатки SGD
застревание в локальных экстремумах
«медленная» сходимость

Слайд 37

Эвристики SGD: Momentum

Слайд 38

Эвристики SGD: Momentum

Слайд 39

Эвристики SGD: Momentum

Слайд 40

Эвристики SGD: AdaGrad и RMSProp

Слайд 41

Эвристики SGD: Adam
Включает в себя все перечисленные подходы

Слайд 42

Эвристики SGD

Слайд 43

Эвристики SGD: подбор скорости обучения

Слайд 44

Эвристики SGD
Замечание:
чем навороченней эвристика, тем больше требуется памяти для хранения кэшей,

моментов и т.д.
тем не менее Adam – хороший выбор для начала
байка про Карпатого
уменьшайте скорость обучения по мере сходимости
динамически проверяйте качество

Слайд 45

Эвристики SGD

Слайд 46

Нормировка признаков

Слайд 47

Нормировка признаков
Замечание:
модель, обученная на нормированных признаках, менее чувствительна к изменениям в

данных
градиентный спуск лучше сойдётся

Слайд 48

Нормализация батча

Слайд 49

Нормализация батча
Замечание:
позволяет решить проблему метода обратного распространения ошибки: параметры модели оптимизируются

«несогласовано»
намного ускоряет сходимость
позволяет увеличить скорость обучения

Слайд 50

Регуляризация
Прореживание (Dropout)

Слайд 51

Регуляризация: прореживание
прореживание (dropout) – приравнивание к нулю случайно выбираемых признаков на

этапе обучения
на этапе валидации используются все признаки, но выход слоя умножается на понижающий коэффициент
позволяет предотвратить переобучение

Введение в глубокое обучение презентация

Содержание

План лекцииОграничения линейных моделейМодель глубокого обученияВычислительные возможности нейросетейСлои моделейФункция активацииОбратное распространение

Ограничения линейных моделейРаботают только с линейными зависимостямиСами не конструируют высокоабстрактные признакитекстовые

Задача «исключающего ИЛИ»

Задача «исключающего ИЛИ»

Задача «исключающего ИЛИ»

Задача «исключающего ИЛИ»

Задача «исключающего ИЛИ»Таким образом два решения:конструирование нового признака на основе исходных

Новый подход

Новый подходперцептрон (МакКаллок и Питтс, 1943 год)искусственный нейрон

Модель глубокого обучения (нейросеть)

Модель глубокого обучения (нейросеть)

Модель глубокого обучения (нейросеть)

Вычислительные возможности нейросетейТеорема Вейерштрасса – СтоунаТеорема Колмогорова – Арнольда (13 проблема

Вычислительные возможности нейросетейНесколько замечаний:двух слоёв достаточно для аппроксимации практически всех «математических»

Слои модели

Слои модели

Слои моделимодель состоит из взаимосвязанных слоёв (Layers)самый простой и распространённый слой

Функция активациифункция активации

Функция активацииНесколько замечаний:применяется после линейного преобразования признаковотвечает за нелинейностьглавное требование –

Обучение модели

Обучение моделиНапоминание:функция потерь численно определяет, на сколько решена задачаоптимизатор корректирует параметры

Обучение моделиКаким методом будем обучать нейросеть?Стохастическим градиентным спуском

Обратное распространение ошибкиОн же:backpropagationцепное правилопроизводная сложной функции

Обратное распространение ошибки

Обратное распространение ошибки

Алгоритм обратного распространения ошибки

Обратное распространение ошибкиПлюсы метода: вычисляется, практически рекурсивно, что даёт скорость работает

Модель глубокого обученияПредварительные выводы:модели глубокого обучения состоят из взаимосвязанных слоёвслои хранят

Функция активации: сигмоидаМинусы:на плечах производная нольОДЗ не центрированавычисление экспоненты

Функция активации: гиперболический тангенсПлюсы: центрированМинусы:на плечах производная нольОДЗ не центрированавычисление экспоненты

Функция активации: ReLUПлюсы: центрирована нелинейная быстрая дифференцируемаяМинусы:не центрирована

Функция активации: Leaky ReLUПлюсы: центрирована нелинейная быстрая дифференцируемая «центрирована»

Различные функции активации

Различные функции активацииЗамечание:ReLU – отправная точкаизменяйте аккуратно скорость обученияпопробуйте Leaky ReLU

Недостатки SGDзастревание в локальных экстремумах«медленная» сходимость

Эвристики SGD: Momentum

Эвристики SGD: Momentum

Эвристики SGD: Momentum

Эвристики SGD: AdaGrad и RMSProp

Эвристики SGD: AdamВключает в себя все перечисленные подходы

Эвристики SGD

Эвристики SGD: подбор скорости обучения

Эвристики SGDЗамечание:чем навороченней эвристика, тем больше требуется памяти для хранения кэшей,

Эвристики SGD

Нормировка признаков

Нормировка признаковЗамечание:модель, обученная на нормированных признаках, менее чувствительна к изменениям в

Нормализация батча

Нормализация батчаЗамечание:позволяет решить проблему метода обратного распространения ошибки: параметры модели оптимизируются

РегуляризацияПрореживание (Dropout)

Регуляризация: прореживаниепрореживание (dropout) – приравнивание к нулю случайно выбираемых признаков на

Похожие презентации

Ограничения линейных моделей
Работают только с линейными зависимостями
Сами не конструируют высокоабстрактные признаки
текстовые

Задача «исключающего ИЛИ»
Таким образом два решения:
конструирование нового признака на основе исходных

Новый подход
перцептрон (МакКаллок и Питтс, 1943 год)
искусственный нейрон

Вычислительные возможности нейросетей
Теорема Вейерштрасса – Стоуна
Теорема Колмогорова – Арнольда (13 проблема

Вычислительные возможности нейросетей
Несколько замечаний:
двух слоёв достаточно для аппроксимации практически всех «математических»

Слои модели
модель состоит из взаимосвязанных слоёв (Layers)
самый простой и распространённый слой

Функция активации
функция активации

Функция активации
Несколько замечаний:
применяется после линейного преобразования признаков
отвечает за нелинейность
главное требование –

Обучение модели
Напоминание:
функция потерь численно определяет, на сколько решена задача
оптимизатор корректирует параметры

Обучение модели
Каким методом будем обучать нейросеть?
Стохастическим градиентным спуском

Обратное распространение ошибки
Он же:
backpropagation
цепное правило
производная сложной функции

Обратное распространение ошибки
Плюсы метода:
вычисляется, практически рекурсивно, что даёт скорость
работает

Модель глубокого обучения
Предварительные выводы:
модели глубокого обучения состоят из взаимосвязанных слоёв
слои хранят

Функция активации: сигмоида
Минусы:
на плечах производная ноль
ОДЗ не центрирована
вычисление экспоненты

Функция активации: гиперболический тангенс
Плюсы:
центрирован
Минусы:
на плечах производная ноль
ОДЗ не центрирована
вычисление экспоненты

Функция активации: ReLU
Плюсы:
центрирована
нелинейная
быстрая
дифференцируемая
Минусы:
не центрирована

Функция активации: Leaky ReLU
Плюсы:
центрирована
нелинейная
быстрая
дифференцируемая
«центрирована»

Различные функции активации
Замечание:
ReLU – отправная точка
изменяйте аккуратно скорость обучения
попробуйте Leaky ReLU

Недостатки SGD
застревание в локальных экстремумах
«медленная» сходимость

Эвристики SGD: Adam
Включает в себя все перечисленные подходы

Эвристики SGD
Замечание:
чем навороченней эвристика, тем больше требуется памяти для хранения кэшей,

Нормировка признаков
Замечание:
модель, обученная на нормированных признаках, менее чувствительна к изменениям в

Нормализация батча
Замечание:
позволяет решить проблему метода обратного распространения ошибки: параметры модели оптимизируются

Регуляризация
Прореживание (Dropout)

Регуляризация: прореживание
прореживание (dropout) – приравнивание к нулю случайно выбираемых признаков на