Лекция 1 DMT. Большая картина Data Mining презентация

Содержание

Слайд 2

Алексей Натёкин (организатор)
В 2007/2008 на Матмехе СПбГУ «влился»: нечеткая логика, нейросети, ...
Аспирант:

Про меня

Алексей Натёкин (организатор) В 2007/2008 на Матмехе СПбГУ «влился»: нечеткая логика, нейросети, ... Аспирант: Про меня

Слайд 3

Зима 2013:
6 месяцев
25 студентов
Осень 2013:
12 месяцев
25 студентов
Осень 2014:
3 месяца
50+ студентов

Про Data Mining

Track

Лекции от экспертов из компаний
Лекции от студентов для студентов

Курс лекций по R, ML, Big Data
Лекции от экспертов из компаний
Events: SNA hackathon, DM Sauna

?

Зима 2013: 6 месяцев 25 студентов Осень 2013: 12 месяцев 25 студентов Осень

Слайд 4



Слайд 5

Что такое Data Science?

Что такое Data Science?

Слайд 6

Data Mining ~ Анализ Данных
Data Science ~ Наука о Данных
KDD: Knowledge Discovery in

Databases

Data ***

Data Mining ~ Анализ Данных Data Science ~ Наука о Данных KDD: Knowledge

Слайд 7


“… key player in organizations: the “data scientist.” It’s a high-ranking professional with

the training and curiosity to make discoveries in the world of big data. “
“The title has been around for only a few years. But thousands of data scientists are already working at both start-ups and well-established companies. “

Data Scientist: The Sexiest Job of the 21st Century

“… key player in organizations: the “data scientist.” It’s a high-ranking professional with

Слайд 8



«Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and

espresso-inspired statistics.»

Metamarket CEO Mike Driscoll, Quora

Особенности профессии

«Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and espresso-inspired

Слайд 9



«Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and

espresso-inspired statistics.»

Metamarket CEO Mike Driscoll, Quora

Особенности профессии

«A data scientist is someone who knows more statistics than a computer scientist and more computer science than a statistician.»

«Data Scientist = statistician + programmer + coach + storyteller + artist.»

«A data scientist is a statistician who lives in San Francisco»

«Data science, as it’s practiced, is a blend of Red-Bull-fueled hacking and espresso-inspired

Слайд 10


Друзья Data Scientist’ов

Data Miners, Machine Learners, Big Data engineers, ...
А также те, кто

занимается:
Artificial Intelligence
Natural Language Processing
Statistical Process Control
Information Retrieval
Business Intelligence
Signal Processing
Econometrics
Biostatistics

И вообще, R&D engineers

Друзья Data Scientist’ов Data Miners, Machine Learners, Big Data engineers, ... А также

Слайд 11

Механика Анализа Данных

Механика Анализа Данных

Слайд 12

Всем нужны знания. Их можно извлекать из данных:
Понимание происходящего
Предсказание будущего
Управление ситуацией

Механика Анализа Данных

Всем нужны знания. Их можно извлекать из данных: Понимание происходящего Предсказание будущего Управление

Слайд 13

Всем нужны знания. Их можно извлекать из данных:
Понимание происходящего
Предсказание будущего
Управление ситуацией

Механика Анализа Данных

Всем нужны знания. Их можно извлекать из данных: Понимание происходящего Предсказание будущего Управление

Слайд 14

Всем нужны знания. Их можно извлекать из данных:
Понимание происходящего
Предсказание будущего
Управление ситуацией
Основная цель:
Принять решение
Действовать!

Механика

Анализа Данных

Информация

Всем нужны знания. Их можно извлекать из данных: Понимание происходящего Предсказание будущего Управление

Слайд 15

Всем нужны знания. Их можно извлекать из данных:
Понимание происходящего
Предсказание будущего
Управление ситуацией
Основная цель:
Принять решение
Действовать!

Механика

Анализа Данных

Информация

!

Всем нужны знания. Их можно извлекать из данных: Понимание происходящего Предсказание будущего Управление

Слайд 16

Пример: оффлайн магазин чая
Понимание происходящего ...
Предсказание будущего ...
Управление ситуацией ...

Механика Анализа Данных

Пример: оффлайн магазин чая Понимание происходящего ... Предсказание будущего ... Управление ситуацией ... Механика Анализа Данных

Слайд 17

Пример: оффлайн магазин чая
Понимание происходящего - есть различные сегменты покупателей (какие?) - потребительские корзины (какие?) -

больше всего покупают на выходных (когда?)
Предсказание будущего - на 8 марта купят 3 кило пу-эра
Управление ситуацией - можно делать bundle’ы

Механика Анализа Данных

Пример: оффлайн магазин чая Понимание происходящего - есть различные сегменты покупателей (какие?) -

Слайд 18

Пример: ...
Понимание происходящего - ...
Предсказание будущего - ...
Управление ситуацией - ...
Что только что произошло?

Механика Анализа Данных

Пример: ... Понимание происходящего - ... Предсказание будущего - ... Управление ситуацией -

Слайд 19

Большая картина Больших Данных

Большая картина Больших Данных

Слайд 20

Business Analysis

Business Call

1. Все всегда начинается с реальной задачи, которая стоит перед

компанией. На языке бизнеса.
2. Конкретизировать задачу в терминах анализа.

Большая картина: бизнес

Business Analysis Business Call 1. Все всегда начинается с реальной задачи, которая стоит

Слайд 21

Business Analysis

Business Call

1. Все всегда начинается с реальной задачи, которая стоит перед

компанией. На языке бизнеса.
2. Конкретизировать задачу в терминах анализа.
3. Сформировать гипотезы про реальную проблему, породившую задачу.
Пример: уходят пользователи, нужно чтобы не уходили.

Большая картина: бизнес

Business Analysis Business Call 1. Все всегда начинается с реальной задачи, которая стоит

Слайд 22

Business Analysis

Business Call

1. Все всегда начинается с реальной задачи, которая стоит перед

компанией. На языке бизнеса.
2. Конкретизировать задачу в терминах анализа.
3. Сформировать гипотезы про реальную проблему, породившую задачу.
4. Определить, какие данные нужны для проверки гипотез
5. Собрать данные.

Большая картина: бизнес

Business Analysis Business Call 1. Все всегда начинается с реальной задачи, которая стоит

Слайд 23

Мы знаем что решаем
У нас есть данные
Нужно договориться о том, что должно

быть в решении

Solutions

Solution Interface

Большая картина: бизнес

Business Analysis

Мы знаем что решаем У нас есть данные Нужно договориться о том, что

Слайд 24

Мы знаем что решаем
У нас есть данные
Нужно договориться о том, что должно

быть в решении
И решить

Solutions

Solution Interface

Большая картина: бизнес

Business Analysis

Мы знаем что решаем У нас есть данные Нужно договориться о том, что

Слайд 25

Business Analysis

Business Call

Виды решений:
Отчет, былина об анализе
Набор красивых вылизанных графиков (или dashboard)
Оракул,

к которому можно обратиться
Сервис и/или realtime решение

Solutions

Solution Interface

Большая картина: бизнес

Business Analysis Business Call Виды решений: Отчет, былина об анализе Набор красивых вылизанных

Слайд 26

Business Analysis

Сколько живых подписчиков у паблика X?

график

Solution Interface

Большая картина: бизнес

Business Analysis Сколько живых подписчиков у паблика X? график Solution Interface Большая картина: бизнес

Слайд 27

Business Analysis

Сколько посетителей переходят на страницу продукта с главной?

график

Solution Interface

Большая картина: бизнес

Business Analysis Сколько посетителей переходят на страницу продукта с главной? график Solution Interface Большая картина: бизнес

Слайд 28

Business Analysis

Business Call

Не хватает магии – непосредственной работы с данными

Solutions

Solution Interface

Data Mining

Мы

знаем что решаем
У нас есть данные
Мы знаем что должно получиться на выходе

Большая картина: аналитика

Business Analysis Business Call Не хватает магии – непосредственной работы с данными Solutions

Слайд 29

Business Analysis

Business Call

Не хватает магии – непосредственной работы с данными и построения

моделей (знаний).

Solutions

Solution Interface

Data Mining

Большая картина: аналитика

Machine Learning

Business Analysis Business Call Не хватает магии – непосредственной работы с данными и

Слайд 30

Business Analysis

Business Call

Solutions

Solution Interface

Data Mining

Большая картина: аналитика

Machine Learning

Сперва мы добываем данные, исследуем

их, приводим к удобному виду и обрабатываем.

Затем строим модели, прогнозы, объясняем их и т.д. Используем их результаты для ответа на поставленный вопрос.

Business Analysis Business Call Solutions Solution Interface Data Mining Большая картина: аналитика Machine

Слайд 31

Business Analysis

Business Call

Эта часть схемы обслуживает данные

Solutions

Solution Interface

Data Mining

Machine Learning

В этой части

схемы создаются знания

Связующий с бизнесом слой

Слой анализа данных

Большая картина: аналитика

Business Analysis Business Call Эта часть схемы обслуживает данные Solutions Solution Interface Data

Слайд 32

Business Analysis

Кто лидеры мнений среди наших читателей

Solution Interface

Data Mining

Machine Learning

Business layer

Analysis layer

Data domain

Knowledge

domain

Интерактивный график с узлами-людьми

Большая картина: аналитика

Business Analysis Кто лидеры мнений среди наших читателей Solution Interface Data Mining Machine

Слайд 33

Business Analysis

Solution Interface

Data Mining

Machine Learning

Business layer

Analysis layer

Data domain

Knowledge domain

Чего-то не хватает...

Business Call

Solutions

Большая

картина: аналитика

Business Analysis Solution Interface Data Mining Machine Learning Business layer Analysis layer Data

Слайд 34

Business Analysis

Solution Interface

Data Mining

Machine Learning

Business layer

Analysis layer

Data domain

Knowledge domain

Business Call

Solutions

Big Data

High Performance

Computing

Infrastructure layer

Большая картина: инфраструктура

Business Analysis Solution Interface Data Mining Machine Learning Business layer Analysis layer Data

Слайд 35

Business Analysis

Solution Interface

Data Mining

Machine Learning

Business layer

Analysis layer

Data domain

Knowledge domain

Business Call

Solutions

Big Data

High Performance

Computing

Infrastructure layer

Большая картина: инфраструктура

Business Analysis Solution Interface Data Mining Machine Learning Business layer Analysis layer Data

Слайд 36

Business Analysis

Solution Interface

Data Mining

Machine Learning

Business layer

Analysis layer

Data domain

Knowledge domain

Business Call

Solutions

Big Data

High Performance

Computing

Infrastructure layer

Большая картина: инфраструктура

Business Analysis Solution Interface Data Mining Machine Learning Business layer Analysis layer Data

Слайд 37

Business Analysis

Solution Interface

Data Mining

Machine Learning

Big Data

High Performance Computing

Business layer

Analysis layer

Infrastructure layer

Data domain

Knowledge domain

Снизить

затраты магазина чая

Система прогноза спроса на чай, оптимизация закупок

Большая картина: пример

Business Analysis Solution Interface Data Mining Machine Learning Big Data High Performance Computing

Слайд 38

Про блоки:
Все начинается с реальной задачи. Задача первична!
Данные и знания могут перемешиваться
Чем глубже

погружается анализ – тем полезнее и качественнее извлеченные знания. И тем он дороже Про структуру схемы:
Одна сторона целиком занята обслуживанием данных, другая – знаниями
Каждый слой поддерживает вышестоящие

Большая картина

Про блоки: Все начинается с реальной задачи. Задача первична! Данные и знания могут

Слайд 39

Business Analysis

Solution Interface

Data Mining

Machine Learning

Business layer

Analysis layer

Data domain

Knowledge domain

Big Data

High Performance Computing

Infrastructure layer

Data

Mining Track

Digital Sales Track

Data Visualization Track

Структура обучающей программы Осень 2014

Business Analysis Solution Interface Data Mining Machine Learning Business layer Analysis layer Data

Слайд 40

Business Analysis

Solution Interface

Data Mining

Machine Learning

Business layer

Analysis layer

Data domain

Knowledge domain

Big Data

High Performance Computing

Infrastructure layer

Data

Mining Track

Digital Sales Track

Data Visualization Track

Структура обучающей программы Весна 2014

Data Journalism

Defence Against Dark Arts

Data Mining in Industry

Big Data

Business Analysis Solution Interface Data Mining Machine Learning Business layer Analysis layer Data

Слайд 41

Business Analysis

Solution Interface

Data Mining

Machine Learning

Business layer

Analysis layer

Data domain

Knowledge domain

Big Data

High Performance Computing

Infrastructure layer

Data

Mining Track

Digital Sales Track

Data Visualization Track

Структура обучающей программы Лето 2014

Data Journalism

Defence Against Dark Arts

Data Mining in Industry

Big Data

Machine Learning in Production

Advanced Machine Learning

Data Mining for Public Good

International Data Mining in Industry

Business Analysis Solution Interface Data Mining Machine Learning Business layer Analysis layer Data

Слайд 42

Структура обучающей программы

Data Mining

Data Visualiz

Digital Sales

Big Data

Dark Arts

Data Journal

Data Mining Industr

DM Public Good

Advan.

ML

ML in produc.

Intern. DM

More in progress

Student Tracks

Oct-Dec 2014

Feb-Apr 2015

Jul-Aug 2015

Структура обучающей программы Data Mining Data Visualiz Digital Sales Big Data Dark Arts

Слайд 43

Зачем это все?
Сообщество
Будущие коллеги
Чем курс отличается от других программ?
Эксперты с реальными задачами
Много практики
Знакомство

с частями большой картины
Чем курс отличается от прежних лет?
Хардкор – ведущая группа
Еще больше проектов
Хакатоны каждую неделю

FAQ про обучение

Зачем это все? Сообщество Будущие коллеги Чем курс отличается от других программ? Эксперты

Слайд 44

Зачем это все?
Сообщество
Будущие коллеги
Чем курс отличается от других программ?
Эксперты с реальными задачами
Много практики
Знакомство

с частями большой картины
Чем курс отличается от прежних лет?
Хардкор – ведущая группа
Еще больше проектов
Хакатоны каждую неделю

FAQ про обучение: где магия

Зачем это все? Сообщество Будущие коллеги Чем курс отличается от других программ? Эксперты

Слайд 45

Столько задач и проектов, сколько захотите ...их хватит на всех
Запросы на темы лекций. ...в

обмен на участие в их подготовке
Больше сила – больше ответственность ...помощь общей группе
Можно звать на помощь общую группу ...в обмен на опыт – курировать своих подопечных

Hardcore группа?

Столько задач и проектов, сколько захотите ...их хватит на всех Запросы на темы

Слайд 46

...

Очень большая задача на курс

... Очень большая задача на курс

Слайд 47


Что происходит на DM+ML слое

Результат

Нам поставили задачу Пример: «предсказывать оценку эссе студента, имея

только его текст», «научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат Пример: хотим угадывать оценку, чтобы увеличить QWKappa, хотим предсказывать число лайков как мождно точнее (R2), …
У нас есть данные Пример: таблица .csv, БД SQL, сырой .txt, API к сервису, сенсоры, ...

Что происходит на DM+ML слое Результат Нам поставили задачу Пример: «предсказывать оценку эссе

Слайд 48


Что происходит на DM+ML слое

Результат

У нас есть данные Пример: таблица .csv, БД SQL,

сырой .txt, API к сервису, сенсоры, ...
Нам поставили задачу Пример: «предсказывать оценку эссе студента, имея только его текст», «научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат Пример: хотим угадывать оценку, чтобы увеличить QWKappa, хотим предсказывать число лайков как мождно точнее (R2), …

Что происходит на DM+ML слое Результат У нас есть данные Пример: таблица .csv,

Слайд 49


Что происходит на DM+ML слое

Результат

Модель
(замес)

Обработка
(тактика)

Гипотезы (стратегия)

Нам поставили задачу Пример: «предсказывать оценку эссе студента, имея

только его текст», «научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат Пример: хотим угадывать оценку, чтобы увеличить QWKappa, хотим предсказывать число лайков как мождно точнее (R2), …
У нас есть данные Пример: таблица .csv, БД SQL, сырой .txt, API к сервису, сенсоры, ...

Что происходит на DM+ML слое Результат Модель (замес) Обработка (тактика) Гипотезы (стратегия) Нам

Слайд 50


Что происходит на DM+ML слое

Результат

Модель
(замес)

Обработка
(тактика)

Гипотезы (стратегия)

В университетах учат как построить модель. Все остальное

– остается за кадром.
“The bulk of the time is spent manipulating data − a mix of data discovery, data structuring, and creating context.” HBR
“Most analytic and visualization tools focus on the last two phases of this workflow. Unfortunately, most of a data scientist’s time is spent on the first three stages.” HBR

Что происходит на DM+ML слое Результат Модель (замес) Обработка (тактика) Гипотезы (стратегия) В

Слайд 51


Что происходит на DM+ML слое

Результат
v.3.1.18

МоМодель
(замес)
дель

Обработка
(тактика)

Гипотезы (стратегия)

Что происходит на DM+ML слое Результат v.3.1.18 МоМодель (замес) дель Обработка (тактика) Гипотезы (стратегия)

Слайд 52


Данные считываются верно?
Свериться с документацией (мб неверна документация)
Считывать построчно, вручную все распарсивать
В данных

есть ошибки?
Проверять типы переменных
Посмотреть на данные глазами
Вручную выправлять данные
Данных достаточно?
Выгрузить/собрать еще данных
Организовать новые эксперементы
Данные актуальны?
Выгрузить/собрать еще данных

Можно улучшить результат?
Запоминаем текущее решение, возвращаемся на тот шаг, где мы расслабились
Начинаем новый «круг» решения
Тестирование корректно?
Не трогать тестовое множество
Кросс-валидация, бутстрепп
Учтены все решения?
«Не забудем, не простим»
Аггрегировать решения, stacking
Можно внедрять? (bonus)
Выделить все что можно в предрассчитанные модули
Добавить в валидацию моделей технические требования real-time

Тип модели?
Наращивать сложность модели (эффекты) постепенно
Посмотреть специальные модели для текущей задачи
Выбор гиперпараметров?
Кросс-валидация\бутстрепп
Для оценки обобщающих способностей – nested CV
Нет ли оверфиттинга?
Кросс-валидация моделей
Регуляризация
Отбор признаков в моделях
Усреднение моделей
Нет ли андерфиттинга?
Если точность устойчива на тренировочном и тестовом множествах –утяжелить модель
Назначать наблюдениям веса

Есть технические трудности?
Пробовать работать с малыми подвыборками
Данные удобны?
Выбрать политику заполнения дыр: среднее/медиана, knn, svd, …
При необходимости фильтровать данные: выбросы, сглаживания
Нормализация данных
Что еще можно вытащить?
Использовать проекторы: SVD, ICA, kPCA, …
Использовать кластерный анализ: метрические кластера (признак), иерархические (отбор), …
Feature learning
Посмотреть информацию, что еще делают по задаче

Как задачу обычно решают?
Здравый смысл
Поиск литературы: статьи, туториалы, форумы
Спросить экспертов
На что в данных смотрят?
Посмотреть пакеты и библиотеки по тематике задачи
Помотреть пресс-релизы коммерческих решений
Что именно оптимизировать?
См. как обычно решают задачу
См. техническую документацию к пакетам и библиотекам

Модель

Обработка

Гипотезы

Результат

Делать полный круг как можно быстрее! Начинать с простых гипотез, признаков, моделей
Запоминать результаты готовых связок «признаки-обработка-модель», хранить их
Сохранять порядок в решении: держать разные признаки, обработки и модели в отдельных файлах
Вести комментарии с результатами анализа

Что происходит на DM+ML слое

Данные считываются верно? Свериться с документацией (мб неверна документация) Считывать построчно, вручную все

Слайд 53


Очень большая задача на курс

Открытая, reusable библиотека решений

Очень большая задача на курс Открытая, reusable библиотека решений

Слайд 54


Очень большая задача на курс

Открытая, reusable библиотека решений, попадающих в top-5%

Очень большая задача на курс Открытая, reusable библиотека решений, попадающих в top-5%

Слайд 55

?

Выводы

? Выводы

Слайд 56

Выводы

Что такое DM, DA, KDD?
Механика DM?
Задачи на практике?
Картина решений?
Структура треков?

Выводы Что такое DM, DA, KDD? Механика DM? Задачи на практике? Картина решений? Структура треков?

Слайд 57

Орг вопросы

Перенос на 18:00-21:00
Старосты
Редакторы
Сайт\платформа
Биржа проектов

Орг вопросы Перенос на 18:00-21:00 Старосты Редакторы Сайт\платформа Биржа проектов

Имя файла: Лекция-1-DMT.-Большая-картина-Data-Mining.pptx
Количество просмотров: 86
Количество скачиваний: 0