Задачи классификации и регрессии. Технологии обработки данных презентация

Август 1, 2022

Главная
Информатика
Задачи классификации и регрессии. Технологии обработки данных

Содержание

2. Технологии обработки данных Knowledge Discovery in Databases (KDD) – процесс получения из данных знаний в виде
3. Методы DM Классификация – установление зависимости дискретной выходной переменной от входных. Кластеризация – группировка объектов на
4. Решение задач классификации Логистическая регрессия Метод опорных векторов Деревья решений Байесовские алгоритмы
5. Задача классификации данных Задача классификации формулируется следующим образом. Имеется множество объектов Каждый объект характеризуется набором свойств
6. Метод опорных векторов Рассмотрим задачу бинарной классификации. Имеющийся набор данных содержит два класса Требуется построить поверхность,
7. Уравнение разделительной гиперплоскости в пространстве переменных представим в виде а линейный пороговый классификатор Коэффициенты подбираются в
8. На рис. представлены два класса в двумерном пространстве. Класс черные точки светлые точки. Видно, что прямая
9. Коэффициенты можно пронормировать таким образом, чтобы в точках, ближайших к разделяющей классы полосе. В остальных точках
11. Если в данных присутствует существенная нелинейность, то решение задачи не приводит к правильной классификации. На рисунке
12. Выражение для классификатора Практически используются следующие функции ядра: .
13. Для примера на рис. представлена выборка из 190 точек. Нелинейное разделение с радиальным ядром Опорные вектора
14. Байесовские классификаторы
22. Последовательность действий
31. ,
33. Метод классификации, основанный на деревьях решений Деревья решений - это способ представления правил в иерархической, последовательной
34. - вероятность принадлежности классу k по атрибуту i и q-му пороговому значению - вероятность попадания в
35. 0 if X[1] >= 0.36 AND X[0] >= 1.64 then Y= 1 1 if X[0] >=
36. 0 if X[1] >= 1.39 then Y= 0 1 if X[1] = -1.52 AND X[0] >=
38. Скачать презентацию

Слайд 2

Технологии обработки данных
Knowledge Discovery in Databases (KDD) – процесс получения из

данных знаний в виде зависимостей, правил, моделей.
Data Mining (DM) – обнаружение в данных неизвестных нетривиальных знаний, необходимых для принятия решений.

Слайд 3

Методы DM
Классификация – установление зависимости дискретной выходной переменной от входных.
Кластеризация –

группировка объектов на основе свойств.
Регрессия - установление зависимости непрерывной выходной переменной от входных.
Ассоциация – выявление закономерностей между связанными событиями.
Последовательные шаблоны – установление закономерностей между связанными во времени событиями

Слайд 4

Решение задач классификации
Логистическая регрессия
Метод опорных векторов
Деревья решений
Байесовские алгоритмы

Слайд 5

Задача классификации данных
Задача классификации формулируется следующим образом.
Имеется множество объектов
Каждый

объект характеризуется набором свойств

и меткой принадлежности к классу

из множества классов

при известном наборе характеристик

некоторый объект необходимо отнести к какому-либо классу

Свойства объекта могут быть булевыми, дискретными или непрерывными, а метку класса обычно представляют в виде номера класса, то есть дискретной переменной.

Слайд 6

Метод опорных векторов
Рассмотрим задачу бинарной классификации. Имеющийся набор данных
содержит

два класса

Требуется построить поверхность, разделяющую все множество точек на два подмножества

Сначала предположим возможность линейного разделения, то есть, поверхность представляет собой разделительную гиперплоскость.

Слайд 7

Уравнение разделительной гиперплоскости в пространстве переменных
представим в виде
а линейный

пороговый классификатор

Коэффициенты

подбираются в процессе обучения.

Слайд 8

На рис. представлены два класса в двумерном пространстве.
Класс
черные

точки

светлые точки.

Видно, что прямая линия, разделяющая две группы точек, не является единственной. Наиболее уверенная классификация обеспечивается, если точки разных классов максимально далеко находятся от разделительной линии. Это будет выполнено, если ширина М пустой полосы между точками разных классов будет максимальна.

Слайд 9

Коэффициенты
можно пронормировать таким образом, чтобы
в точках, ближайших к

разделяющей классы полосе. В остальных точках условие

выполняется с запасом. Ширина полосы М рассчитывается как расстояние между двумя параллельными плоскостями

Следовательно, максимум М соответствует

и получим задачу оптимизации с ограничениями

Слайд 10

Слайд 11

Если в данных присутствует существенная нелинейность,
то решение задачи не приводит

к правильной классификации. На рисунке приведены данные такого типа.

Слайд 12

Выражение для классификатора
Практически используются следующие функции ядра:
.

Слайд 13

Для примера на рис. представлена выборка из 190 точек.
Нелинейное разделение

с радиальным ядром

Опорные вектора

отмечены крестиками. Эти точки расположены на разделяющей классы замкнутой поверхности. Неправильно классифицированные точки обведены квадратиками. Таких точек три из 190. Треугольниками обозначены точки из проверочной выборки, не участвующие в обучении.

Слайд 14

Байесовские классификаторы

Слайд 15

Слайд 16

Слайд 17

Слайд 18

Слайд 19

Слайд 20

Слайд 21

Слайд 22

Последовательность действий

Слайд 23

Слайд 24

Слайд 25

Слайд 26

Слайд 27

Слайд 28

Слайд 29

Слайд 30

Слайд 31

,

Слайд 32

Слайд 33

Метод классификации,
основанный на деревьях решений
Деревья решений - это способ представления

правил в
иерархической, последовательной структуре, где
каждому объекту соответствует единственный узел,
дающий решение.
Под правилом понимается логическая конструкция,
представленная в виде if A then B .

множество данных

условие
разделения
по атрибуту

Слайд 34

- вероятность принадлежности
классу k по атрибуту i
и q-му

пороговому значению

- вероятность попадания в класс k.

Разбиению множества X по проверке t соответствует
выражение для энтропии Шеннона
Критерий выбора

Слайд 35

0 if X[1] >= 0.36 AND X[0] >= 1.64 then Y=

1
1 if X[0] >= 0.13 AND X[0] < 1.64 AND X[1] >= 1.60 then Y= 0
2 if X[0] < 1.64 AND X[1] < 1.60 AND X[1] >= 0.61 AND X[0] >= 1.18 then Y= 1
3 if X[1] < 1.60 AND X[1] >= 0.61 AND X[0] >= 1.08 AND X[0] < 1.18 then Y= 0
4 if X[1] < 1.60 AND X[1] >= 0.61 AND X[0] >= 0.64 AND X[0] < 1.08 then Y= 0
5 if X[0] >= 0.13 AND X[1] < 1.60 AND X[1] >= 0.61 AND X[0] < 0.64 then Y= 0
6 if X[1] >= 0.36 AND X[0] < 1.64 AND X[1] < 0.61 AND X[0] >= 0.41 then Y= 1
7 if X[1] >= 0.36 AND X[0] >= 0.13 AND X[1] < 0.61 AND X[0] < 0.41 then Y= 0
8 if X[1] >= 0.36 AND X[0] >= -0.37 AND X[0] < 0.13 then Y= 0
9 if X[1] >= 0.36 AND X[0] >= -1.18 AND X[0] < -0.37 then Y= 0
10 if X[1] >= 0.36 AND X[0] < -1.18 then Y= 0
11 if X[1] < 0.36 AND X[0] >= 0.40 then Y= 1
12 if X[1] < 0.36 AND X[0] < 0.40 AND X[0] >= -1.54 AND X[1] >= -0.01 then Y= 0
13 if X[0] < 0.40 AND X[1] >= -1.50 AND X[1] < -0.01 AND X[0] >= -0.38 then Y= 1
14 if X[0] >= -1.54 AND X[1] < -0.01 AND X[0] < -0.38 AND X[1] >= -0.72 then Y= 0
15 if X[1] >= -1.50 AND X[0] < -0.38 AND X[1] < -0.72 AND X[0] >= -1.22 then Y= 1
16 if X[1] >= -1.50 AND X[0] >= -1.54 AND X[1] < -0.72 AND X[0] < -1.22 then Y= 0
17 if X[1] < 0.36 AND X[1] >= -1.50 AND X[0] < -1.54 then Y= 0
18 if X[0] < 0.40 AND X[1] < -1.50 then Y= 1

Слайд 36

0 if X[1] >= 1.39 then Y= 0
1 if X[1] <

1.39 AND X[1] >= -1.52 AND X[0] >= 1.43 then Y= 0
2 if X[1] < 1.39 AND X[0] < 1.43 AND X[1] >= -0.07 AND X[0] >= 1.23 then Y= 0
3 if X[1] < 1.39 AND X[0] >= 0.91 AND X[1] >= -0.07 AND X[0] < 1.23 then Y= 1
4 if X[0] < 1.43 AND X[0] >= 0.91 AND X[1] >= -1.06 AND X[1] < -0.07 then Y= 1
5 if X[1] >= -1.52 AND X[0] < 1.43 AND X[0] >= 0.91 AND X[1] < -1.06 then Y= 0
6 if X[1] < 1.39 AND X[1] >= -1.52 AND X[0] >= 0.25 AND X[0] < 0.91 then Y= 1
7 if X[1] < 1.39 AND X[1] >= -1.52 AND X[0] >= 0.04 AND X[0] < 0.25 then Y= 1
8 if X[1] < 1.39 AND X[1] >= -1.52 AND X[0] >= -0.28 AND X[0] < 0.04 then Y= 1
9 if X[1] < 1.39 AND X[1] >= -1.52 AND X[0] >= -0.63 AND X[0] < -0.28 then Y= 1
10 if X[1] < 1.39 AND X[0] < -0.63 AND X[1] >= -1.00 AND X[0] >= -1.01 then Y= 1
11 if X[1] < 1.39 AND X[0] >= -1.47 AND X[0] < -1.01 AND X[1] >= 0.67 then Y= 0
12 if X[0] >= -1.47 AND X[1] >= -1.00 AND X[0] < -1.01 AND X[1] < 0.67 then Y= 1
13 if X[1] >= -1.52 AND X[0] >= -1.47 AND X[0] < -0.63 AND X[1] < -1.00 then Y= 0
14 if X[1] < 1.39 AND X[1] >= -1.52 AND X[0] < -1.47 then Y= 0
15 if X[1] < -1.52 then Y= 0

Задачи классификации и регрессии. Технологии обработки данных презентация

Содержание

Технологии обработки данныхKnowledge Discovery in Databases (KDD) – процесс получения из

Методы DMКлассификация – установление зависимости дискретной выходной переменной от входных.Кластеризация –

Решение задач классификацииЛогистическая регрессияМетод опорных векторовДеревья решенийБайесовские алгоритмы

Задача классификации данных Задача классификации формулируется следующим образом. Имеется множество объектов Каждый

Метод опорных векторов Рассмотрим задачу бинарной классификации. Имеющийся набор данных содержит

Уравнение разделительной гиперплоскости в пространстве переменных представим в видеа линейный

На рис. представлены два класса в двумерном пространстве. Класс черные

Коэффициенты можно пронормировать таким образом, чтобы в точках, ближайших к

Если в данных присутствует существенная нелинейность, то решение задачи не приводит

Выражение для классификатора Практически используются следующие функции ядра:.

Для примера на рис. представлена выборка из 190 точек. Нелинейное разделение