Искусственные нейронные сети презентация

Август 7, 2021

Главная
Информатика
Искусственные нейронные сети

Содержание

2. Что такое нейронные сети Искусственная нейронная сеть —математическая модель, построенная по принципу организации и функционирования биологических
3. Какое место занимают нейросети в Computer Science
4. Нейронные сети принадлежат к классу алгоритмов, обучающихся с учителем (supervised learning), и решает типовые задачи этого
5. Искусственный нейрон
6. ИН – формализованная модель биологического нейрона, предложенная в 1943 году У. Маккалоком и У.Питтсом. Он работает
7. Линейная Выходы сети являются линейными комбинациями входов Пороговая Эта функция использовалась в оригинальной модели ИН. имеет
8. Сигмоида Долгое время считалась функцией, лучше всего описывающей работу нейрона. дифференцируема имеет порог насыщения Tanh дифференцируема
9. ReLU (rectified linear unit) В настоящее время самая широко используемая функция активации в силу своей простоты.
10. Зачем нужно смещение Замечание: сдвиг b можно также считать отдельным нейроном, на который всегда подается значение
11. Слои Слой - совокупность нейронов сети, объединяемых по особенностям их функционирования. В плоскослоистых сетях это группа
12. Персептрон y = f(∑w2 f(∑w1 x)) Перцептрон - одна из первых моделей нейронных сетей, предложенная в
13. Формальное определение задачи классификации Имеется множество объектов, разделённых некоторым образом на классы. Задано конечное множество объектов,
14. Разделяющая гиперплоскость В задаче классификации однослойный персептрон строит в Rn гиперплоскость (или поверхность, если функция активации
15. Булевы функции Как пример задачи классификации рассмотрим булевы функции, в которых признаковому описанию, состоящему из значений
16. Персептроны, реализующие булевы функции
17. Соответствующие разделяющие гиперплоскости
18. Проблема XOR Научное сообщество на долгое время потеряла интерес к нейронным сетям после выхода в 1969
19. Решение проблемы
20. Теорема Колмогорова-Арнольда Любая непрерывная функция любого количества переменных представляется в виде суперпозиции непрерывных функций одной и
21. Обучение сети Наиболее распространенный метод обучения нейронной сети – метод обратного распространения ошибки. Он был впервые
22. Аналогия для понимания (дельта-правило)
23. Аналогия для понимания (дельта-правило)
24. Аналогия для понимания (дельта-правило)
25. Обучающая выборка Выборка – набор размеченных входных векторов (т.е. таких, для которых известен правильный ответ), по
26. Прямой ход
27. Функция потерь Функция потерь — функция, по значению которой можно оценить работу сети. Две наиболее часто
28. Обратный ход Будем минимизировать функцию потерь методом стохастического градиентного спуска
29. «Спуск» по поверхности ошибки
30. Гиперпараметры η - шаг обучения. Он является гиперпараметром, то есть он настраиваются вручную до начала обучения.
31. wi j влияет на выход сети только как часть суммы Поэтому Рассмотрим, как будут меняться веса
32. Sj влияет на общую ошибку только в рамках выхода j-го узла yj (являющегося выходом сети): Поэтому
33. Рассмотрим теперь, как будут меняться веса между скрытыми слоями. S j влияет на выход сети через
34. Итого: Для последнего слоя: Для внутренних слоев: Для всех:
36. Проблемы обучения Паралич сети – сеть перестает обучаться. Переобучение Недообучение Причины: затухающий градиент взрывающийся градиент неправильный
37. Контроль обучения Кросс-валидация Регуляризация штраф за большие веса dropout batch norm Работа с обучающей выборкой
38. Применения персептрона Распознавание образов и классификация Анализ данных Принятие решений и управление в нейроинформатике в химии
39. Когда все поменялось В 2012 году нейросеть впервые выиграла соревнование по распознаванию IMAGENET c 10% отрывом.
40. Сверточные нейронные сети Сверточная нейронная сеть (CNN) — специальная архитектура нейронных сетей, предложенная Яном Лекуном в
41. Свертка Свертка – операция, применяемая к двум массивам, которая заключается в следующем: фильтр «скользит» по входному
42. Двумерная свертка
43. Шаг и padding Единичный 0-padding Свертка с шагом 2
44. Свертка в нейронных сетях Изображение – это трехмерный тензор (массив), с размерностями: WxHxC. К нему применяется
45. Сверточный слой Будем использовать не один, а F фильтров. Сверточный слой принимает на вход тензор WxHxD
46. Субдискритизация (pooling) Изображение делится на регионы (напр. квадраты 2х2), и каждый регион заменяется на максимальное значение
47. Примеры VGG-16
48. Понимание работы CNN Показано, что мозг обрабатывает визуальную информацию иерархически: сначала находят границы, углы, а на
49. Deconvolutional network – это сеть, которая интерпретирует CNN, т.е. показывает, какие пиксели повлияли на активацию тех
50. Транспонированная свертка Свертка и соответствующая ей транспонированная свертка
51. Выучиваемые признаки На рисунке показаны куски изображения, которые больше всего были ответственны за то, чтобы активировать
54. Layers 4, 5
55. CNN для распознавания звуков и текстов
56. Автоэнкодеры Предположим, наша задача не классифицировать картинки, а получить для них какое-то малоразмерное представление. Тогда для
57. Автоэнкодер – это специальная архитектура нейросети, состоящая из кодировщика и декодировщика. На месте их стыка образуется
58. Скрытое пространство Скрытое пространство – маломерное пространство, в которое кодировщик отображает данные. Его визуализация позволяет получать
59. Движение в скрытом пространстве Интересный эффект получается, если подавать на декодировщик значения, полученные при движении от
60. Рекуррентные нейронные сети Рекуррентная нейронная сеть (RNN) — архитектура нейронных сетей, где связи между элементами образуют
61. Все биологической нейронной сети – рекуррентные RNN моделирует динамическую систему Универсальная теорема аппроксимации говорит, что с
62. Сеть Хопфилда Однослойная RNN с пороговой функцией активации. Она моделирует ассоциативную память – она «запоминает» какой-то
63. Машина Больцмана Стохастическая аналог сети Хопфилда, придуманный Дж. Хинтоном в 1985г. Для нее определено понятие «энергии»:
64. Машина Больцмана обучается алгоритмом имитации обжига: система вычисляет значение энергии в некотором случайном состоянии. Если оно
65. Общий случай В общем случае RNN может запоминать некоторый «контекст» на скрытых слоях Для этого она
66. Применение RNN Моделирование последовательностей преобразования (напр. из звука в текст) предсказание следующего элемента последовательности (напр. следующего
67. Пример использования RNN в задаче машинного перевода
68. Вопросы Что такое нейронная сеть и что она моделирует? [1] В чем основная идея метода обратного
70. Скачать презентацию

Слайд 2

Что такое нейронные сети
Искусственная нейронная сеть —математическая модель, построенная по принципу

организации и функционирования биологических нейронных сетей.

Слайд 3

Какое место занимают нейросети в Computer Science

Слайд 4

Нейронные сети принадлежат к классу алгоритмов, обучающихся с учителем (supervised

learning), и решает типовые задачи этого класса:

Слайд 5

Искусственный нейрон

Слайд 6

ИН – формализованная модель биологического нейрона, предложенная в 1943 году У.

Маккалоком и У.Питтсом.
Он работает следующим образом:
Нейрон получает на вход вектор x
Его компоненты умножаются на соответствующий вес и складываются. Также прибавляется смещение b.
К взвешенной сумме применяется функция активации.
Y = φ(∑wixi + b)

Слайд 7

Линейная
Выходы сети являются линейными комбинациями входов
Пороговая
Эта функция использовалась в оригинальной модели

ИН.
имеет центрированный аналог (sign x)
не дифференцируема

Функции активации

Слайд 8

Сигмоида
Долгое время считалась функцией, лучше всего описывающей работу нейрона.
дифференцируема
имеет порог насыщения
Tanh
дифференцируема
центрована
имеет

порог насыщения

Слайд 9

ReLU (rectified linear unit)
В настоящее время самая широко используемая функция активации

в силу своей простоты.
Также недавние исследования показывают, что она правильнее описывает работу биологических нейронов
дифференцируема
не имеет порога насыщения
быстро вычисляется
не центрована
чувствительна к инициализации

Слайд 10

Зачем нужно смещение
Замечание: сдвиг b можно также считать отдельным нейроном, на

который всегда подается значение 1. Такой нейрон называется нейроном смещения.

Слайд 11

Слои
Слой - совокупность нейронов сети, объединяемых по особенностям их функционирования. В

плоскослоистых сетях это группа нейронов, имеющих один и тот же набор входов и не соединенных между собой.
По виду связи между слоями сети делят на
Сети прямого распространения (FFNN)
Рекуррентные сети (RNN)

Слайд 12

Персептрон
y = f(∑w2 f(∑w1 x))
Перцептрон - одна из первых моделей

нейронных сетей, предложенная в 1957 году Ф. Розенблаттом как средство решения задач классификации.

Слайд 13

Формальное определение задачи классификации
Имеется множество объектов, разделённых некоторым образом на классы.

Задано конечное множество объектов, для которых известно, к каким классам они относятся (выборка). Классовая принадлежность остальных объектов неизвестна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества.
Построить алгоритм, который по признаковому описанию объекта (вектору x = (x1,…,xn)) правильно определит метку класса.

Слайд 14

Разделяющая гиперплоскость
В задаче классификации однослойный персептрон строит в Rn гиперплоскость (или

поверхность, если функция активации нелинейна), разделяющую объекты на 2 класса.

Слайд 15

Булевы функции
Как пример задачи классификации рассмотрим булевы функции, в которых признаковому описанию,

состоящему из значений двух булевых переменных, сопоставляется метка класса – «истина» или «ложь».

Слайд 16

Персептроны, реализующие булевы функции

Слайд 17

Соответствующие разделяющие гиперплоскости

Слайд 18

Проблема XOR
Научное сообщество на долгое время потеряла интерес к нейронным сетям

после выхода в 1969 году статьи Марвина Минского и Сеймура Паперта, в которой утверждалось, что персептрон не способен обучиться функции XOR.

Слайд 19

Решение проблемы

Слайд 20

Теорема Колмогорова-Арнольда
Любая непрерывная функция любого количества переменных представляется в виде суперпозиции

непрерывных функций одной и двух переменных (и, более того, что в таком представлении можно обойтись, в дополнение к непрерывным функциям одной переменной, единственной функцией двух переменных — сложением):

Слайд 21

Обучение сети
Наиболее распространенный метод обучения нейронной сети – метод обратного распространения

ошибки.
Он был впервые описан в 1974 г. А.И. Галушкиным.
Основная идея этого метода состоит в распространении сигналов ошибки от выходов сети к её входам, в направлении, обратном прямому распространению сигналов в обычном режиме работы.

Слайд 22

Аналогия для понимания (дельта-правило)

Слайд 23

Аналогия для понимания (дельта-правило)

Слайд 24

Аналогия для понимания (дельта-правило)

Слайд 25

Обучающая выборка
Выборка – набор размеченных входных векторов (т.е. таких, для

которых известен правильный ответ), по которому производится настройка сети.

Слайд 26

Прямой ход

Слайд 27

Функция потерь
Функция потерь — функция, по значению которой можно оценить работу

сети.
Две наиболее часто используемых функции потерь:
среднеквадратичная ошибка (MSE):
логистическая (log loss):

Слайд 28

Обратный ход
Будем минимизировать функцию потерь
методом стохастического градиентного спуска

Слайд 29

«Спуск» по поверхности ошибки

Слайд 30

Гиперпараметры
η - шаг обучения. Он является гиперпараметром, то есть он настраиваются

вручную до начала обучения.
0<η<1
Также гиперпараметрами являются глубина сети (количество слоев), ширина слоев, количество эпох обучения.

Слайд 31

wi j влияет на выход сети только как часть суммы
Поэтому
Рассмотрим,

как будут меняться веса перед
выходным слоем.

Слайд 32

Sj влияет на общую ошибку только в рамках выхода j-го

узла yj (являющегося выходом сети):
Поэтому
Следовательно

Слайд 33

Рассмотрим теперь, как будут меняться веса между скрытыми слоями.
S j

влияет на выход сети через всех «детей» j-того нейрона.
и
а - это аналогичная поправка, но вычис-ленная для k-того нейрона следующего слоя.

Слайд 34

Итого:
Для последнего слоя:
Для внутренних слоев:
Для всех:

Слайд 35

Слайд 36

Проблемы обучения
Паралич сети – сеть перестает обучаться.
Переобучение
Недообучение
Причины:
затухающий градиент
взрывающийся градиент
неправильный

выбор гиперпараметров

Слайд 37

Контроль обучения
Кросс-валидация
Регуляризация
штраф за большие веса
dropout
batch norm
Работа с обучающей выборкой

Слайд 38

Применения персептрона
Распознавание образов и классификация
Анализ данных
Принятие решений и управление
в нейроинформатике
в химии

(хемоинформатике)
Прогнозирование временных рядов
в экономике

Слайд 39

Когда все поменялось
В 2012 году нейросеть впервые выиграла соревнование по распознаванию

IMAGENET c 10% отрывом.
Причины:
появление больших датасетов
обучение на GPU
использование сверточной архитектуры

Слайд 40

Сверточные нейронные сети
Сверточная нейронная сеть (CNN) — специальная архитектура нейронных сетей, предложенная

Яном Лекуном в 1988 году и нацеленная на эффективное распознавание изображений. Идея заключается в чередовании сверточных слоев и субдискретизирующих слоев.

Слайд 41

Свертка
Свертка – операция, применяемая к двум массивам, которая заключается в следующем:
фильтр

«скользит» по входному массиву, и каждый элемент выходного массива равен скалярному произведению фильтра и соответствующей области входного массива.

Ядро свертки
(фильтр)

Слайд 42

Двумерная свертка

Слайд 43

Шаг и padding
Единичный 0-padding
Свертка с шагом 2

Слайд 44

Свертка в нейронных сетях
Изображение – это трехмерный тензор (массив), с размерностями:

WxHxC.
К нему применяется фильтр – тензор KxKxC.
Результат – матрица активации WxH.

Слайд 45

Сверточный слой
Будем использовать не один, а F фильтров.
Сверточный слой принимает

на вход тензор WxHxD и производит свертку набором из F фильтров KxKxD. Каждый фильтр дает двумерную матрицу активации, следовательно на выходе получается тензор WxHxF.
Каждый фильтр ищет в окрестности своего пикселя некоторый паттерн.

Слайд 46

Субдискритизация (pooling)
Изображение делится на регионы (напр. квадраты 2х2), и каждый регион

заменяется на максимальное значение в этом регионе.
Вырабатывается инвариативность к небольшим сдвигам
Увеличение рецептивной области
Уменьшение вычислительных затрат

Слайд 47

Примеры
VGG-16

Слайд 48

Понимание работы CNN
Показано, что мозг обрабатывает визуальную информацию иерархически: сначала находят

границы, углы, а на более глубоких слоях – сложные объекты.

Слайд 49

Deconvolutional network
– это сеть, которая интерпретирует CNN, т.е. показывает, какие

пиксели повлияли на активацию тех или иных выходов.

Слайд 50

Транспонированная свертка
Свертка и соответствующая ей транспонированная свертка

Слайд 51

Выучиваемые признаки
На рисунке показаны куски изображения, которые больше всего были ответственны

за то, чтобы активировать нейрон на первом слое.

Слайд 52

Слайд 53

Слайд 54

Layers 4, 5

Слайд 55

CNN для распознавания звуков и текстов

Слайд 56

Автоэнкодеры
Предположим, наша задача не классифицировать картинки, а получить для них какое-то

малоразмерное представление. Тогда для обучающей выборки нет меток класса, и необходимо применять обучение без учителя.

Слайд 57

Автоэнкодер – это специальная архитектура нейросети, состоящая из кодировщика и декодировщика.

На месте их стыка образуется «бутылочное горлышко», на котором собираются наиболее важные признаки.
Автоэнкодер пытается выучить тождественное преобразование, т.е. минимизировать разницу между входом и выходом сети.

Слайд 58

Скрытое пространство
Скрытое пространство – маломерное пространство, в которое кодировщик отображает данные.

Его визуализация позволяет получать проекции, лучшие чем PCA или какой-либо другой классический метод.

Слайд 59

Движение в скрытом пространстве
Интересный эффект получается, если подавать на декодировщик значения,

полученные при движении от признаков одной цифры к признакам другой.

Слайд 60

Рекуррентные нейронные сети
Рекуррентная нейронная сеть (RNN) — архитектура нейронных сетей, где

связи между элементами образуют направленный цикл.
Наличие таких циклов делает эту архитектуру идеальной для обработки последовательностей и данных, распределенных во времени.

Слайд 61

Все биологической нейронной сети – рекуррентные
RNN моделирует динамическую систему
Универсальная теорема

аппроксимации говорит, что с помощью RNN можно смоделировать поведение любой динамической системы
Существует много алгоритмов обучения RNN без явного лидера.

Слайд 62

Сеть Хопфилда
Однослойная RNN с пороговой функцией активации.
Она моделирует ассоциативную память

– она «запоминает» какой-то набор образов и потом способна восстановить его из памяти.
Сеть обучается по следующему правилу:

Слайд 63

Машина Больцмана
Стохастическая аналог сети Хопфилда, придуманный Дж. Хинтоном в 1985г.
Для нее

определено понятие «энергии»:
Она была первой нейронной сетью, способной обучаться внутренним представлениям и решать сложные комбинаторные задачи.

Слайд 64

Машина Больцмана обучается алгоритмом имитации обжига:
система вычисляет значение энергии в некотором

случайном состоянии. Если оно меньше текущего, то система переходит в это состояние, иначе остается в текущем. Вероятность перехода со временем уменьшается до нуля.

Слайд 65

Общий случай
В общем случае RNN может запоминать некоторый «контекст» на скрытых

слоях
Для этого она обучается методом обратного распространения ошибки развёрнутого во времени.

Слайд 66

Применение RNN
Моделирование последовательностей
преобразования (напр. из звука в текст)
предсказание следующего элемента последовательности

(напр. следующего слова в предложении)
Анализ контекста и внутренней структуры

Слайд 67

Пример использования RNN в задаче машинного перевода

Слайд 68

Вопросы
Что такое нейронная сеть и что она моделирует? [1]
В чем основная

идея метода обратного распространения ошибки? [2]
Какие две операции, используемые в сверточных сетях делают их идеальными для работы с изображениями? [3]
Какую задачу решает автокодировщик? Какие особенности его архитектуры помогают ее решить? [4]
В чем принципиальное отличие рекуррентных сетей от сетей прямого распространения? Какой вид данных это отличие позволяет эффективно обрабатывать? [5]

Искусственные нейронные сети презентация

Содержание

Что такое нейронные сети Искусственная нейронная сеть —математическая модель, построенная по принципу

Какое место занимают нейросети в Computer Science

Нейронные сети принадлежат к классу алгоритмов, обучающихся с учителем (supervised

Искусственный нейрон

ИН – формализованная модель биологического нейрона, предложенная в 1943 году У.

ЛинейнаяВыходы сети являются линейными комбинациями входовПороговая Эта функция использовалась в оригинальной модели

СигмоидаДолгое время считалась функцией, лучше всего описывающей работу нейрона.дифференцируемаимеет порог насыщенияTanhдифференцируемацентрованаимеет

ReLU (rectified linear unit) В настоящее время самая широко используемая функция активации

Зачем нужно смещениеЗамечание: сдвиг b можно также считать отдельным нейроном, на

СлоиСлой - совокупность нейронов сети, объединяемых по особенностям их функционирования. В

Персептронy = f(∑w2 f(∑w1 x)) Перцептрон - одна из первых моделей

Формальное определение задачи классификацииИмеется множество объектов, разделённых некоторым образом на классы.

Разделяющая гиперплоскость В задаче классификации однослойный персептрон строит в Rn гиперплоскость (или

Булевы функцииКак пример задачи классификации рассмотрим булевы функции, в которых признаковому описанию,

Персептроны, реализующие булевы функции

Соответствующие разделяющие гиперплоскости

Проблема XORНаучное сообщество на долгое время потеряла интерес к нейронным сетям

Решение проблемы

Теорема Колмогорова-Арнольда Любая непрерывная функция любого количества переменных представляется в виде суперпозиции

Обучение сетиНаиболее распространенный метод обучения нейронной сети – метод обратного распространения

Аналогия для понимания (дельта-правило)

Аналогия для понимания (дельта-правило)

Аналогия для понимания (дельта-правило)

Обучающая выборка Выборка – набор размеченных входных векторов (т.е. таких, для

Прямой ход

Функция потерь Функция потерь — функция, по значению которой можно оценить работу

Обратный ходБудем минимизировать функцию потерьметодом стохастического градиентного спуска

«Спуск» по поверхности ошибки

Гиперпараметры η - шаг обучения. Он является гиперпараметром, то есть он настраиваются

wi j влияет на выход сети только как часть суммыПоэтомуРассмотрим,

Sj влияет на общую ошибку только в рамках выхода j-го

Рассмотрим теперь, как будут меняться веса между скрытыми слоями. S j

Итого:Для последнего слоя:Для внутренних слоев:Для всех:

Проблемы обученияПаралич сети – сеть перестает обучаться. Переобучение НедообучениеПричины:затухающий градиентвзрывающийся градиентнеправильный

Контроль обученияКросс-валидацияРегуляризацияштраф за большие весаdropoutbatch normРабота с обучающей выборкой

Применения персептронаРаспознавание образов и классификацияАнализ данныхПринятие решений и управлениев нейроинформатикев химии

Когда все поменялось В 2012 году нейросеть впервые выиграла соревнование по распознаванию

Сверточные нейронные сети Сверточная нейронная сеть (CNN) — специальная архитектура нейронных сетей, предложенная

Свертка Свертка – операция, применяемая к двум массивам, которая заключается в следующем:фильтр

Двумерная свертка

Шаг и paddingЕдиничный 0-padding Свертка с шагом 2

Свертка в нейронных сетяхИзображение – это трехмерный тензор (массив), с размерностями:

Сверточный слойБудем использовать не один, а F фильтров. Сверточный слой принимает

Субдискритизация (pooling) Изображение делится на регионы (напр. квадраты 2х2), и каждый регион

ПримерыVGG-16

Понимание работы CNN Показано, что мозг обрабатывает визуальную информацию иерархически: сначала находят

Deconvolutional network – это сеть, которая интерпретирует CNN, т.е. показывает, какие

Транспонированная свертка Свертка и соответствующая ей транспонированная свертка

Выучиваемые признаки На рисунке показаны куски изображения, которые больше всего были ответственны

Layers 4, 5

CNN для распознавания звуков и текстов

Автоэнкодеры Предположим, наша задача не классифицировать картинки, а получить для них какое-то

Автоэнкодер – это специальная архитектура нейросети, состоящая из кодировщика и декодировщика.

Скрытое пространство Скрытое пространство – маломерное пространство, в которое кодировщик отображает данные.

Движение в скрытом пространстве Интересный эффект получается, если подавать на декодировщик значения,

Рекуррентные нейронные сетиРекуррентная нейронная сеть (RNN) — архитектура нейронных сетей, где

Все биологической нейронной сети – рекуррентныеRNN моделирует динамическую систему Универсальная теорема

Сеть ХопфилдаОднослойная RNN с пороговой функцией активации. Она моделирует ассоциативную память

Машина БольцманаСтохастическая аналог сети Хопфилда, придуманный Дж. Хинтоном в 1985г.Для нее

Машина Больцмана обучается алгоритмом имитации обжига:система вычисляет значение энергии в некотором

Общий случайВ общем случае RNN может запоминать некоторый «контекст» на скрытых

Применение RNNМоделирование последовательностейпреобразования (напр. из звука в текст)предсказание следующего элемента последовательности

Пример использования RNN в задаче машинного перевода

ВопросыЧто такое нейронная сеть и что она моделирует? [1]В чем основная

Похожие презентации

Что такое нейронные сети
Искусственная нейронная сеть —математическая модель, построенная по принципу

Линейная
Выходы сети являются линейными комбинациями входов
Пороговая
Эта функция использовалась в оригинальной модели

Сигмоида
Долгое время считалась функцией, лучше всего описывающей работу нейрона.
дифференцируема
имеет порог насыщения
Tanh
дифференцируема
центрована
имеет

ReLU (rectified linear unit)
В настоящее время самая широко используемая функция активации

Зачем нужно смещение
Замечание: сдвиг b можно также считать отдельным нейроном, на

Слои
Слой - совокупность нейронов сети, объединяемых по особенностям их функционирования. В

Персептрон
y = f(∑w2 f(∑w1 x))
Перцептрон - одна из первых моделей

Формальное определение задачи классификации
Имеется множество объектов, разделённых некоторым образом на классы.

Разделяющая гиперплоскость
В задаче классификации однослойный персептрон строит в Rn гиперплоскость (или

Булевы функции
Как пример задачи классификации рассмотрим булевы функции, в которых признаковому описанию,

Проблема XOR
Научное сообщество на долгое время потеряла интерес к нейронным сетям

Теорема Колмогорова-Арнольда
Любая непрерывная функция любого количества переменных представляется в виде суперпозиции

Обучение сети
Наиболее распространенный метод обучения нейронной сети – метод обратного распространения

Обучающая выборка
Выборка – набор размеченных входных векторов (т.е. таких, для

Функция потерь
Функция потерь — функция, по значению которой можно оценить работу

Обратный ход
Будем минимизировать функцию потерь
методом стохастического градиентного спуска

Гиперпараметры
η - шаг обучения. Он является гиперпараметром, то есть он настраиваются

wi j влияет на выход сети только как часть суммы
Поэтому
Рассмотрим,

Рассмотрим теперь, как будут меняться веса между скрытыми слоями.
S j

Итого:
Для последнего слоя:
Для внутренних слоев:
Для всех:

Проблемы обучения
Паралич сети – сеть перестает обучаться.
Переобучение
Недообучение
Причины:
затухающий градиент
взрывающийся градиент
неправильный

Контроль обучения
Кросс-валидация
Регуляризация
штраф за большие веса
dropout
batch norm
Работа с обучающей выборкой

Применения персептрона
Распознавание образов и классификация
Анализ данных
Принятие решений и управление
в нейроинформатике
в химии

Когда все поменялось
В 2012 году нейросеть впервые выиграла соревнование по распознаванию

Сверточные нейронные сети
Сверточная нейронная сеть (CNN) — специальная архитектура нейронных сетей, предложенная

Свертка
Свертка – операция, применяемая к двум массивам, которая заключается в следующем:
фильтр

Шаг и padding
Единичный 0-padding
Свертка с шагом 2

Свертка в нейронных сетях
Изображение – это трехмерный тензор (массив), с размерностями:

Сверточный слой
Будем использовать не один, а F фильтров.
Сверточный слой принимает

Субдискритизация (pooling)
Изображение делится на регионы (напр. квадраты 2х2), и каждый регион

Примеры
VGG-16

Понимание работы CNN
Показано, что мозг обрабатывает визуальную информацию иерархически: сначала находят

Deconvolutional network
– это сеть, которая интерпретирует CNN, т.е. показывает, какие

Транспонированная свертка
Свертка и соответствующая ей транспонированная свертка

Выучиваемые признаки
На рисунке показаны куски изображения, которые больше всего были ответственны

Автоэнкодеры
Предположим, наша задача не классифицировать картинки, а получить для них какое-то

Скрытое пространство
Скрытое пространство – маломерное пространство, в которое кодировщик отображает данные.

Движение в скрытом пространстве
Интересный эффект получается, если подавать на декодировщик значения,

Рекуррентные нейронные сети
Рекуррентная нейронная сеть (RNN) — архитектура нейронных сетей, где

Все биологической нейронной сети – рекуррентные
RNN моделирует динамическую систему
Универсальная теорема

Сеть Хопфилда
Однослойная RNN с пороговой функцией активации.
Она моделирует ассоциативную память

Машина Больцмана
Стохастическая аналог сети Хопфилда, придуманный Дж. Хинтоном в 1985г.
Для нее

Машина Больцмана обучается алгоритмом имитации обжига:
система вычисляет значение энергии в некотором

Общий случай
В общем случае RNN может запоминать некоторый «контекст» на скрытых

Применение RNN
Моделирование последовательностей
преобразования (напр. из звука в текст)
предсказание следующего элемента последовательности

Вопросы
Что такое нейронная сеть и что она моделирует? [1]
В чем основная